“Chúng ta chưa có robot nào hiểu thế giới vật lý gần bằng một con chuột,” Yann LeCun – một trong những nhân vật tiêu biểu trong lĩnh vực trí tuệ nhân tạo – chia sẻ. Ông từng làm việc tại Meta, công ty sở hữu Facebook, trong một thập kỷ và giữ vị trí nhà khoa học AI trưởng. Ông rời công ty vào năm 2025 để sáng lập Advanced Machine Intelligence Labs (AMI Labs).
Mục tiêu của ông là đưa AI vượt ra ngoài các hệ thống hiện tại như ChatGPT, Claude và Gemini. “Chúng có vai trò riêng, nhưng sẽ không bao giờ giải quyết được những tình huống phức tạp trong thực tế, ví dụ như để robot thực hiện công việc nhà,” LeCun nói tại vòng bên cạnh hội nghị VivaTech, hội nghị công nghệ hàng đầu của Pháp.
Do đó, AMI Labs có trụ sở ở Paris đang tập trung phát triển một loại trí tuệ nhân tạo mới, không dựa trên công nghệ của ChatGPT hay các nền tảng tương tự. Đầu năm nay, AMI Labs công bố đã huy động hơn 1 tỷ USD (≈ 760 triệu GBP). Các nhà đầu tư bao gồm tập đoàn chip Nvidia và quỹ tài sản cá nhân của Jeff Bezos, nhà sáng lập Amazon. Vòng gọi vốn hạt giống này là một trong những vòng lớn nhất tại châu Âu.
Các mô hình ngôn ngữ lớn (Large Language Models – LLM) như ChatGPT rất xuất sắc trong một số nhiệm vụ, chẳng hạn lập trình, giải toán và tạo văn bản, LeCun cho biết. Tuy nhiên, đây là những nhiệm vụ có mục tiêu rõ ràng và có thể dự đoán.
“Chúng (LLM) chỉ tích lũy kiến thức… Chúng có thể trích xuất những gì đã học, nhưng không thực sự thông minh. Chúng không có sự hiểu biết nền tảng,” ông nói.
Trong thực tế, mỗi hành động có vô số kết quả tiềm năng, đòi hỏi một dạng AI linh hoạt hơn. LeCun đặt một chiếc bút thẳng đứng trên đầu bút. Nếu thả ra thì sao? Ngay cả một đứa trẻ cũng biết bút sẽ ngã, nhưng không có con người nào cố gắng đoán bút sẽ ngã về phía nào; thật không thể biết được.
Một LLM có thể cố gắng đưa ra một dự đoán duy nhất về hướng di chuyển tiếp theo của bút, dựa trên các mẫu thống kê trong dữ liệu huấn luyện. Dự đoán này hầu như chắc chắn sẽ sai, vì hệ thống không suy luận về thực tế vật lý mà chỉ tạo ra những gì có vẻ hợp lý về mặt thống kê.
LeCun cho biết hệ thống mà công ty đang phát triển, có tên Joint Embedding Predictive Architecture (JEPA), được thiết kế để giải quyết những bài toán như vậy. JEPA tạo ra các biểu diễn trừu tượng về thế giới thực, cho phép nó đánh giá hậu quả của các hành động. Việc tạo ra các biểu diễn trừu tượng này yêu cầu toán học phức tạp, nhưng cơ bản là lọc bỏ thông tin không cần thiết, để lại cho AI những “hình ảnh” hữu ích về thế giới.
Trong trường hợp của chiếc bút, AI sẽ nhận ra rằng việc dự đoán hướng ngã của bút là không cần thiết.
Robot hình người cần một trí tuệ nhân tạo có thể định vị trong thế giới thực – [Bloomberg via Getty Images]
Xây dựng một AI linh hoạt hơn đang là ưu tiên hàng đầu của ngành công nghiệp robot. Hàng tỷ đô la đã được đầu tư vào việc chế tạo robot dạng người, và các thành tựu của chúng ngày càng ấn tượng hơn mỗi năm (xem video của BBC). Tuy nhiên, việc huấn luyện chúng thực hiện an toàn các công việc gia đình như ủi đồ hay sắp xếp bát đĩa vẫn gặp khó khăn và tốn kém. LeCun cho rằng các mô hình AI hiện tại khó đạt hiệu suất tốt trong môi trường này.
“LLM hầu như vô vọng cho robot,” ông nói.
“Các tuyên bố rằng chỉ cần mở rộng quy mô LLM là chúng ta sẽ đạt được trí thông minh siêu nhân là điều không thể xảy ra.”
Nhiều chuyên gia trong ngành AI đồng quan điểm với LeCun. Giáo sư Ingmar Posner, người đứng đầu Applied AI Lab tại Đại học Oxford và đồng thời là Amazon Scholar, là một trong số đó.
“Theo tôi, thập kỷ tới sẽ thực sự là thời của các hệ thống có khả năng giải thích… Bạn cần những mô hình có thể trả lời các câu hỏi như: Điều gì quan trọng? Điều gì gây ra điều gì? Sẽ ra sao nếu tôi làm gì khác – ví dụ nếu tôi thay đổi hành động?”
Posner và đội ngũ khoảng 10 nhà nghiên cứu của mình đã làm việc suốt bốn năm để phát triển một dạng AI thay thế, thuộc nhóm rộng hơn được gọi là World Models (mô hình thế giới).
Mặc dù World Models đã tồn tại dưới dạng khái niệm trong nhiều thập kỷ, một nguồn cảm hứng quan trọng cho công việc này là bài báo năm 2018 của David Ha và Jürgen Schmidhuber. Họ nhận thấy rằng, với tiến bộ trong học máy và sức mạnh tính toán, một AI có thể tự học cách thực hiện một việc gì đó chỉ dựa trên mô phỏng “tinh thần” của thế giới. Kể từ 2018, ý tưởng này đã thúc đẩy một lượng nghiên cứu đáng kể về World Models, trong đó có Dreamer World Model của Google. Một biến thể gần đây của Dreamer đã học cách thu thập kim cương trong trò chơi Minecraft bằng cách tưởng tượng các kịch bản tương lai để hỗ trợ quyết định.
Posner hy vọng hệ thống AI mà nhóm mình đang phát triển sẽ là một bước tiến mới. Ông gọi nó là “mechanistic world model”, nhằm cấu trúc kiến thức sao cho AI có thể sử dụng một cách hiệu quả.
“Bạn cần những hệ thống có khả năng phân chia và tổ chức kiến thức sao cho có thể truy xuất, kết hợp và chỉnh sửa khi cần thiết,” Posner nói.
“Nếu hỏi bất kỳ ai vào năm 2017 hay 2018 về thời gian sẽ có một công cụ kiểu ChatGPT, họ sẽ trả lời: ‘Hàng thập kỷ, hàng thập kỷ công việc.’”
Phiên bản gốc của ChatGPT được ra mắt vào tháng 11/2022. Các nghiên cứu khác về World Models đang được thực hiện bởi DeepMind (thuộc Alphabet) với mô hình Genie, và công ty London‑based Wayve có hệ thống Gaia.
Trong khi đó, nhà tiên phong AI Fei‑Fei Li đã thành lập World Labs tại San Francisco năm 2023 để phát triển một mô hình AI mới.
LeCun cho biết AMI Labs sẽ dành phần còn lại của năm này để hoàn thiện mô hình AI, và hy vọng vào năm sau mô hình này sẽ được áp dụng lần đầu trong môi trường công nghiệp. Nếu thành công, họ sẽ bắt đầu nghĩ đến những ứng dụng lớn hơn.
“Cuối cùng, chúng ta sẽ có những hệ thống trí tuệ tổng quát, có thể áp dụng vào hầu hết mọi lĩnh vực trên thế giới với việc đào tạo hoặc tinh chỉnh tối thiểu,” LeCun nói.
Con người sẽ ra sao trong một thế giới robot tự hành?
“Chúng ta vẫn cần con người để đặt ra câu hỏi, quyết định xây dựng gì, tạo ra gì – đó mới là khía cạnh thực sự thuộc về con người,” LeCun nói. AI sẽ làm việc cho chúng ta, ông nói thêm.
“Sự tương tác của chúng ta với các hệ thống AI trong tương lai — dù chúng thông minh hơn chúng ta — sẽ giống như mối quan hệ giữa một vị thuyền trưởng hay nhà lãnh đạo chính trị với đội ngũ trợ lý của họ — nhiều người trong số đó còn thông minh hơn họ.”
AI research, Yann LeCun, robotics







