Nghiên cứu của Apple: Các mô hình AI không làm được toán cấp tiểu học, 'không hiểu phép trừ là gì'

Apple vừa công bố một phát hiện gây chú ý: ngay cả những mô hình trí tuệ nhân tạo tiên tiến nhất cũng gặp khó khăn khi giải các bài toán cấp tiểu học nếu đề bài chứa những thông tin dư thừa.

Một bài báo (link) đăng trên tạp chí Machine Learning Research đã phân tích sâu về sức mạnh và hạn chế của các mô hình suy luận lớn (LRM). Kết quả cho thấy hiệu suất giải quyết vấn đề của các mô hình này giảm sút rõ rệt khi độ phức tạp tăng lên. Cụ thể, chỉ cần thêm vào những ngữ cảnh không liên quan, độ chính xác của tất cả các mô hình được thử nghiệm đều bị suy giảm.

Các nhà nghiên cứu viết (link): “Chúng tôi nhận thấy các mô hình suy luận lớn (LRM) có giới hạn trong khả năng tính toán chính xác: chúng không vận dụng các thuật toán rõ ràng mà suy luận một cách thiếu nhất quán qua các câu đố.”

Nav Toor (@heynavtoor) đã phân tích bài báo này trong một bài đăng (link) trên mạng xã hội X.

“Các nhà nghiên cứu của Apple đã lấy bộ dữ liệu chuẩn toán học phổ biến nhất trong lĩnh vực AI — GSM8K, bao gồm các bài toán cấp tiểu học — và chỉ thay đổi một yếu tố duy nhất,” Toor viết.

Ví dụ về một câu hỏi:

Bí mật: Prompt “bút chì” của ChatGPT

“Oliver thu hoạch 44 quả kiwi vào thứ Sáu. Sau đó, ông ấy thu hoạch thêm 58 quả vào thứ Bảy. Vào Chủ Nhật, ông ấy thu hoạch được số kiwi gấp đôi so với thứ Sáu, nhưng có năm quả trong số đó kích thước nhỏ hơn mức trung bình một chút. Hỏi tổng cộng Oliver có bao nhiêu quả kiwi?”

Những chi tiết như ngày trong tuần hay kích thước của quả kiwi thực chất không ảnh hưởng đến phép tính, nhưng chúng lại dễ làm các mô hình AI bị lạc hướng, dẫn đến việc hiểu sai trọng tâm vấn đề. Các nhà nghiên cứu nhận định rằng việc mô hình coi những ngữ cảnh thừa thãi này là yếu tố quan trọng chính là nguyên nhân làm giảm độ chính xác dự đoán và hiệu suất tổng thể.

Nghiên cứu (PDF) kết luận rằng khi bài toán trở nên dài dòng và phức tạp hơn, các mô hình gặp khó khăn đến mức nhiều câu trả lời đưa ra dường như không thể giải quyết được. Toor cho rằng việc AI vật lộn với dữ liệu nhiễu là một vấn đề mang tính cấu trúc, chứ không phải do cách đặt câu hỏi hay ngữ cảnh cụ thể.

“Các mô hình thực chất không hiểu phép trừ là gì. Chúng chỉ nhận diện được một mẫu hình trông giống phép trừ rồi áp dụng máy móc. Chỉ có vậy thôi,” ông giải thích.

Công nghệ AI ngày càng thâm nhập sâu vào đời sống hằng ngày với nhiều tiềm năng ứng dụng, từ tối ưu hóa lưới điện đến giảm thiểu thất thoát năng lượng. Tuy nhiên, nhiều chuyên gia vẫn lên tiếng lo ngại về những hạn chế, rủi ro trong ứng dụng và các tác hại tiềm ẩn của những công cụ này.

Bí mật: ...

Toor đặc biệt cảnh báo những ai đang dùng AI để ra các quyết định quan trọng trong cuộc sống hoặc hỗ trợ làm bài tập: “AI thực chất không hề suy nghĩ về bất cứ điều gì cả.”
Tags: AI limitations, Elementary math, Apple research