Các tác nhân mã AI tự đào tạo cánh tay robot một cách tự động

Một nhóm gồm tám cánh tay robot trong phòng thí nghiệm GEAR của Nvidia đã tự học trong vài tuần qua để lắp ghim, cài đặt card đồ họa và cắt dây buộc. Con người duy nhất tham gia chỉ là những người viết báo cáo sau này.

Kỹ năng này xuất phát từ ENPIRE, một khung làm việc được mô tả chi tiết trong bài báo công bố vào thứ Ba bởi các nhà nghiên cứu tại Nvidia, Carnegie Mellon University và UC Berkeley. ENPIRE giao toàn bộ công việc huấn luyện robot cho các tác nhân mã AI — phần mềm có khả năng tự viết và kiểm thử mã — và cho phép chúng thực hiện quy trình này trực tiếp trên phần cứng vật lý.

Các tác nhân mã như Codex của OpenAI, Claude Code của Anthropic và Kimi Code của Moonshot đã dành nhiều năm để thực hiện những gì các nhà nghiên cứu gọi là autoresearch — viết mã, kiểm thử và viết lại mà không cần con người can thiệp. Vòng lặp này phần lớn chỉ diễn ra trên máy tính, nơi việc khởi động lại một thí nghiệm thất bại không tốn chi phí. ENPIRE đưa nó ra thế giới thực, nơi việc khởi động lại đồng nghĩa với việc di chuyển một cánh tay robot thực tế.

Xây dựng “ENPIRE”

Hệ thống chia công việc thành hai giai đoạn.

Tool creation – Con người hướng dẫn tác nhân tạo ra hai công cụ cố định:

một reset routine trả lại không gian làm việc về vị trí khởi đầu, và
một reward function quan sát video từ camera để chấm điểm thành công (một trọng tài không bao giờ chớp mắt và không nghỉ ăn trưa).

Bí mật: Tìm 3 Điểm Khác Nhau chủ đề Giáng Sinh: Trò chơi lễ hội giúp rèn luyện trí não

Cấu hình này chỉ thực hiện một lần, sau đó được tái sử dụng cho mọi lần thử tiếp theo.

Full autonomy – Khi các công cụ đã sẵn sàng, tác nhân sẽ tự chịu trách nhiệm hoàn toàn. Nó tìm kiếm trong các công trình đã công bố để lấy ý tưởng, chọn một phương pháp huấn luyện (học mô phỏng, học tăng cường hoặc các quy tắc viết tay), tự viết lại mã của mình và kiểm thử trên robot. Không cần sự giám sát của con người.

Nvidia thực hiện thí nghiệm trên tám trạm robot bimanual, mỗi trạm có cấu hình phần cứng, máy tính và tác nhân mã riêng. Các trạm trao đổi tiến độ qua Git, công cụ mà các lập trình viên dùng để hợp nhất mã, vì vậy một ý tưởng thắng sẽ lan rộng khắp đội trong vòng vài phút.

Các nhà nghiên cứu đo lường hiệu suất trên “Push‑T,” một nhiệm vụ nơi robot trượt một khối hình chữ T vào vùng đích chỉ bằng cách đẩy, và pin insertion, nơi robot đưa ghim vào các lỗ 4 mm. Khi mở rộng từ một robot lên tám robot, thời gian để làm chủ Push‑T giảm từ khoảng năm giờ xuống còn hai giờ, và thời gian lắp ghim giảm từ hơn 90 phút xuống khoảng 40 phút.

Trong bốn nhiệm vụ thực tế được thử nghiệm, các tác nhân đã đạt tỷ lệ thành công 99 %. Đối với việc lắp ghim, các tác nhân đạt độ tin cậy gần như hoàn hảo nhanh hơn so với phương pháp có sự can thiệp của con người, vốn vẫn cần người xuất hiện mỗi sáng.

“Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy…”
— Jim Fan, @DrJimFan, 16 tháng 6 2026
Link to tweet

Sự chênh lệch giữa mô phỏng và thực tế xuất hiện gần như ngay lập tức. Ba tác nhân mã đều giải quyết được Push‑T trong môi trường mô phỏng, nhưng hai trong ba lại thất bại khi cùng một nhiệm vụ được chuyển sang robot thực.

Bí mật: Cách Ngừng ChatGPT Đưa Đề Xuất Tiếp Theo Vào Mọi Câu Trả Lời

Simulators don’t have friction problems. Real tables do.
(Các mô phỏng không có vấn đề ma sát. Bàn thực tế có.)

Nvidia cũng đã thử ENPIRE trong RoboCasa, một chuẩn benchmark mô phỏng nhà bếp đánh giá robot dựa trên tỷ lệ thành công của các công việc như mở tủ hay tắt bếp, hoàn toàn không có nguy cơ cháy nổ. Ở đây, ENPIRE đã vượt trội hơn cả mô hình end‑to‑end GR00T của Nvidia và CaP‑X, một tác nhân sử dụng công cụ bỏ qua vòng autoresearch hoàn toàn.

ENPIRE mở rộng một ý tưởng mà Nvidia lần đầu đề xuất với Eureka, một hệ thống năm 2023 dùng mô hình ngôn ngữ để tự động viết hàm thưởng cho robot trong mô phỏng thay vì để các kỹ sư con người viết bằng tay. ENPIRE đưa vòng cải tiến tự động này ra khỏi mô phỏng và lên phần cứng vật lý, với tác nhân tự thiết kế các bài kiểm tra thay vì chỉ viết hàm thưởng.

Bản phát hành này trùng vào tuần Alibaba công bố Qwen‑Robot Suite, một bộ ba mô hình nền tảng cho điều hướng robot, thao tác và mô phỏng vật lý. Alibaba đang xây dựng “bộ não” phần mềm cho những chiếc robot mà họ không tự sản xuất; Nvidia đang thử nghiệm liệu các tác nhân có thể thực hiện toàn bộ vòng nghiên cứu trên phần cứng của mình từ đầu đến cuối. Cả hai đều chỉ ra xu hướng: robot vật lý đang trở thành sân chơi tiếp theo cho các tác nhân mã cạnh tranh.

Bí mật: OpenAI ra mắt gói Pro 100 USD dành cho lập trình viên

AI agents, robotics, automation