Physical Intelligence ra mắt mô hình robot π0.7 với khả năng tổng quát hóa cấu thành

Physical Intelligence – một công ty khởi nghiệp về robot tại San Francisco mới thành lập được hai năm, nhưng đã nhanh chóng trở thành một trong những cái tên được quan tâm nhất trong lĩnh vực AI tại Thung lũng Silicon – vừa công bố nghiên cứu mới vào thứ Năm. Nghiên cứu này cho thấy mô hình mới nhất của họ có thể điều khiển robot thực hiện các nhiệm vụ mà chúng chưa từng được huấn luyện cụ thể – một khả năng ngay cả các nhà nghiên cứu của công ty cũng phải ngạc nhiên.
Mô hình mới, mang tên π0.7, được xem là bước đi đầu tiên đầy ý nghĩa hướng tới mục tiêu dài hạn của công ty: tạo ra một “bộ não đa năng cho robot”. Khi đó, robot chỉ cần được giao một nhiệm vụ lạ qua ngôn ngữ tự nhiên là có thể thực hiện thành công. Nếu được xác nhận, những kết quả này báo hiệu rằng AI trong robotics đang bước vào giai đoạn chuyển mình tương tự như lĩnh vực mô hình ngôn ngữ lớn (LLM), nơi các khả năng bắt đầu cộng hưởng và vượt xa những gì dữ liệu ban đầu dự đoán.
Tổng quát hóa cấu thành (compositional generalization) – khả năng kết hợp các kỹ năng đã học trong những bối cảnh khác nhau để giải quyết các vấn đề hoàn toàn mới – là luận điểm cốt lõi của bài báo. Trước đây, phương pháp tiêu chuẩn để huấn luyện robot gần như chỉ là học thuộc lòng: thu thập dữ liệu cho một nhiệm vụ cụ thể, huấn luyện một mô hình chuyên biệt trên dữ liệu đó, rồi lặp lại quy trình cho mỗi nhiệm vụ mới. Theo Physical Intelligence, π0.7 đã phá vỡ khuôn mẫu này.

“Khi vượt qua ngưỡng chỉ làm đúng những gì có trong dữ liệu cung cấp và bắt đầu ‘phối hợp lại’ (remix) các yếu tố theo những cách mới,” Sergey Levine – đồng sáng lập Physical Intelligence và giáo sư chuyên về AI cho robot tại UC Berkeley – chia sẻ, “khả năng của mô hình sẽ tăng nhanh hơn mức tuyến tính so với lượng dữ liệu. Tính mở rộng thuận lợi này chúng ta đã từng chứng kiến trong các lĩnh vực khác như xử lý ngôn ngữ và thị giác máy tính.”

Thí nghiệm ấn tượng nhất trong bài báo liên quan đến một nồi chiên không dầu – thiết bị mà mô hình hầu như chưa từng thấy trong quá trình huấn luyện. Các nhà nghiên cứu chỉ tìm thấy hai đoạn dữ liệu liên quan trong toàn bộ kho dữ liệu: một đoạn ghi lại cảnh robot đơn thuần đẩy cửa nồi chiên đóng lại, và một đoạn từ bộ dữ liệu nguồn mở, trong đó robot đặt một chai nhựa vào trong nồi theo chỉ dẫn của con người. Mô hình đã tự tổng hợp những mảnh thông tin rời rạc này, kết hợp với kiến thức tiền huấn luyện từ web, để hình thành sự hiểu biết chức năng về cách thiết bị hoạt động.

“Rất khó để xác định chính xác kiến thức đến từ đâu, hay dự đoán khi nào nó sẽ thành công hoặc thất bại,” Ashwin Balakrishna, nhà khoa học nghiên cứu tại Physical Intelligence và là tiến sĩ khoa học máy tính Stanford, nhận định. Khi không có bất kỳ hướng dẫn nào, mô hình đã cố gắng dùng nồi chiên để nấu một củ khoai lang với kết quả ở mức chấp nhận được. Tuy nhiên, khi được cung cấp chỉ dẫn bằng lời nói – tức là con người hướng dẫn robot từng bước – nó đã thực hiện thành công nhiệm vụ.

Khả năng được “hướng dẫn” này rất quan trọng, vì nó cho thấy robot có thể triển khai trong môi trường mới và cải thiện hiệu suất ngay lập tức mà không cần thu thập thêm dữ liệu hay huấn luyện lại mô hình.

“Đôi khi lỗi không nằm ở robot hay mô hình,” Balakrishna nói. “Mà là ở chính chúng ta, khi chưa giỏi kỹ thuật ra lệnh (prompt engineering).” Ông mô tả một thí nghiệm ban đầu với nồi chiên không dầu chỉ đạt tỷ lệ thành công 5%. Nhưng sau khoảng nửa giờ tinh chỉnh cách mô tả nhiệm vụ cho mô hình, tỷ lệ này đã nhảy vọt lên 95%.

Mô hình hiện vẫn chưa thể tự động thực hiện các nhiệm vụ phức tạp gồm nhiều bước chỉ từ một lệnh cấp cao duy nhất. “Bạn không thể просто nói với nó: ‘Này, làm cho tôi một lát bánh mì nướng,'” Levine giải thích. “Nhưng nếu bạn hướng dẫn từng bước – ‘đối với máy nướng bánh mì, hãy mở phần này, nhấn nút kia, thực hiện thao tác này’ – thì nó hoạt động khá tốt.”
Các tiêu chuẩn đánh giá robot hiện nay còn rất hạn chế, khiến việc xác thực độc lập từ bên ngoài gặp nhiều khó khăn. Công ty đã so sánh π0.7 với các mô hình chuyên biệt do chính họ xây dựng – những hệ thống được huấn luyện riêng cho từng nhiệm vụ – và nhận thấy mô hình đa năng này đạt hiệu suất tương đương trên nhiều công việc phức tạp, bao gồm pha cà phê, gấp quần áo và lắp ráp các hộp.
Các nhà nghiên cứu thực sự bất ngờ trước kết quả này. Balakrishna kể lại: “Kinh nghiệm trước đây của tôi là khi hiểu rõ dữ liệu, tôi có thể đoán được mô hình sẽ làm được gì và hiếm khi ngạc nhiên. Nhưng trong vài tháng qua, tôi đã thực sự sốc. Tôi vừa mua một bộ bánh răng ngẫu nhiên và hỏi robot: ‘Bạn có thể quay bánh răng này không?’ Và nó đã làm được.”
Levine nhớ lại khoảnh khắc các nhà nghiên cứu lần đầu tiên chứng kiến GPT‑2 tạo ra một câu chuyện về kỳ lân ở dãy Andes. “Nó học về kỳ lân ở Peru từ đâu?” ông tự hỏi. “Đó là một sự kết hợp kỳ lạ. Và tôi nghĩ việc chứng kiến điều tương tự trong lĩnh vực robot thực sự rất đặc biệt.”
Các nhà phê bình có thể lập luận rằng các mô hình ngôn ngữ đã được học từ toàn bộ internet, trong khi robot không có lợi thế đó. Tuy nhiên, Levine nhấn mạnh rằng chất lượng của sự tổng quát hóa quan trọng hơn những màn trình diễn hào nhoáng. “Lời chỉ trích thường thấy đối với bất kỳ buổi demo về khả năng tổng quát hóa của robot nào là các nhiệm vụ có vẻ hơi nhàm chán,” ông nói. “Robot không thực hiện những cú nhào lộn ngoạn mục.” Ông lập luận rằng sự tổng quát hóa thực sự thường ít kịch tính hơn một màn biểu diễn, nhưng lại hữu ích hơn rất nhiều trong thực tế.
Chính bài báo cũng thể hiện sự thận trọng, mô tả π0.7 mới chỉ có những “dấu hiệu sớm” của sự tổng quát hóa và là các “minh chứng ban đầu” cho những khả năng mới. Đây là kết quả nghiên cứu, chưa phải là sản phẩm thương mại, và Physical Intelligence vẫn giữ im lặng về thời điểm ra mắt thực tế.
Khi được hỏi trực tiếp về thời điểm một hệ thống dựa trên các phát hiện này có thể sẵn sàng triển khai thực tế, Levine không muốn đưa ra dự đoán. “Tôi nghĩ có lý do để lạc quan, và chắc chắn tiến độ đang nhanh hơn so với những gì tôi mong đợi vài năm trước,” ông nói. “Nhưng tôi rất khó để trả lời chính xác câu hỏi đó.”
Tính đến thời điểm hiện tại, Physical Intelligence đã huy động hơn 1 tỷ USD và được định giá gần 5,6 tỷ USD. Một phần lớn sự quan tâm từ các nhà đầu tư bắt nguồn từ đồng sáng lập Lachy Groom, một nhà đầu tư thiên thần nổi tiếng tại Thung lũng Silicon, người từng hỗ trợ các công ty như Figma, Notion và Ramp. Hiện tại, công ty đang trong các cuộc đàm phán cho vòng gọi vốn mới, có thể đẩy định giá lên 11 tỷ USD.
Tags: Robotics AI, Compositional Generalization, Physical Intelligence