Trí tuệ vật lý – Xây dựng các bộ não robot đa năng

**Trí tuệ vật lý – Xây dựng các bộ não robot đa năng**

Physical Intelligence
Ảnh: Connie Loizos cho TechCrunch
Từ bên ngoài, dấu hiệu duy nhất khiến tôi nhận ra trụ sở của Physical Intelligence ở San Francisco là một biểu tượng pi có màu hơi khác biệt so với phần còn lại của cửa. Bên trong không có quầy lễ tân, cũng không có logo sáng chói được chiếu sáng bằng đèn huỳnh quang.
Không gian bên trong là một “hộp” bê tông khổng lồ, chỉ “nhẹ nhàng” hơn một chút nhờ các bàn dài bằng gỗ màu nâu vàng. Một số bàn rõ ràng dành cho bữa trưa, rải rác các hộp bánh quy Girl Scout, hũ Vegemite (ai đó ở đây là người Úc), và những giỏ kim loại có dây chứa rất nhiều gia vị. Các bàn còn lại lại kể một câu chuyện hoàn toàn khác: chúng chất đầy màn hình, các bộ phận robot dự phòng, những sợi dây đen rối rắm, và các cánh tay robot đã lắp ráp sẵn, đang cố gắng thực hiện những công việc tầm thường.
Trong chuyến thăm, tôi chứng kiến một cánh tay đang gập một cặp quần đen—hoặc ít nhất là đang cố gắng gập. Một cánh tay khác đang lộn áo ngược lại; quyết tâm của nó đủ mạnh để cuối cùng cũng sẽ thành công—chỉ chưa phải hôm nay. Cánh tay thứ ba, có vẻ đã tìm thấy sứ mệnh của mình, đang nhanh chóng gọt vỏ một cây bìquô và sẽ bỏ phần vụn vào một hộp riêng. Việc gọt vụn ít nhất cũng được thực hiện tốt.

“Hãy nghĩ nó giống như ChatGPT, nhưng dành cho robot,” Sergey Levine nói, chỉ tay về “vũ điệu” robot cơ điện đang diễn ra trong phòng.
Levine, giáo sư phụ tại UC Berkeley và một trong những đồng sáng lập của Physical Intelligence, có vẻ hiền hòa, đeo kính, và thường dành thời gian giải thích các khái niệm phức tạp cho những người chưa hiểu ngay lập tức.

Image
Ảnh: Connie Loizos cho TechCrunch
“Bạn đang thấy gì ở đây,” anh giải thích, “là giai đoạn thử nghiệm của một vòng lặp liên tục: dữ liệu được thu thập tại các trạm robot ở đây và ở các địa điểm khác—nhà kho, nhà riêng, bất cứ nơi nào nhóm có thể thiết lập phòng thí nghiệm—và dữ liệu đó sẽ huấn luyện các mô hình nền tảng robot đa năng. Khi các nhà nghiên cứu huấn luyện một mô hình mới, mô hình ấy sẽ trở lại các trạm như thế này để đánh giá. Cánh tay gập quần là một thí nghiệm của ai đó. Cánh tay lộn áo cũng vậy. Cánh tay gọt bìquô có thể đang kiểm tra liệu mô hình có thể tổng quát hoá sang các loại rau củ khác, học được các chuyển động cơ bản của việc gọt sao cho đủ mềm dẻo để xử lý một quả táo hay một củ khoai tây chưa từng gặp.”
Công ty còn vận hành một “bếp thử nghiệm” trong tòa nhà này và các địa điểm khác, sử dụng phần cứng có sẵn để đưa robot vào các môi trường và thách thức đa dạng. Gần đó có một máy pha cà phê espresso tinh xảo, và tôi tưởng nó dành cho nhân viên, cho đến khi Levine làm rõ: không, nó dành cho robot để học. Mỗi ly latte có bọt đều là dữ liệu, không phải phần thưởng cho hàng chục kỹ sư đang đắm chìm trong màn hình hoặc tập trung vào các thí nghiệm cơ khí của mình.
Phần cứng được thiết kế cố ý không sang trọng. Những cánh tay này bán với giá khoảng 3.500 USD, và Levine cho rằng đây là “đánh giá quá cao” so với giá của nhà cung cấp. Nếu họ tự sản xuất tại nhà máy, chi phí vật liệu sẽ giảm xuống dưới 1.000 USD. Vài năm trước, một robot học giả sẽ ngạc nhiên nếu các thiết bị này có thể làm bất kỳ việc gì. Nhưng mục tiêu của Physical Intelligence là trí tuệ tốt bù đắp cho phần cứng kém.
Khi Levine rời đi, tôi được Lachy Groom tiếp xúc. Groom di chuyển trong không gian với sự quyết đoán của một người đang thực hiện nhiều công việc cùng lúc. Ở tuổi 31, Groom vẫn mang nét tươi trẻ của “cậu bé kỳ tài” Silicon Valley—điểm danh mà anh đã đạt được khi bán công ty đầu tiên chỉ chín tháng sau khi thành lập, khi mới 13 tuổi, tại quê hương Úc (điều này giải thích hũ Vegemite).
Lần đầu tiên tôi nói chuyện với anh, anh lập tức đáp lại yêu cầu gặp gỡ của tôi: “Chắc chắn không, tôi có cuộc họp.” Giờ này anh có tới mười phút—có lẽ.
Groom đã tìm thấy đích đến khi theo dõi công trình học thuật của Levine và Chelsea Finn (cựu tiến sĩ của Levine ở Berkeley, hiện lãnh đạo phòng thí nghiệm tại Stanford chuyên về học máy robot). Hai tên này xuất hiện trong mọi bản tin về robot. Khi nghe tin họ có thể đang khởi động một dự án mới, Groom đã tìm đến Karol Hausman, một nhà nghiên cứu Google DeepMind từng giảng dạy tại Stanford và mà Groom biết có liên quan. “Đó chỉ là một buổi họp, rồi tôi ra khỏi phòng và cảm giác đó, ‘Đây là nó.’”
Groom không bao giờ có ý định trở thành nhà đầu tư toàn thời gian, dù hồ sơ của anh bao gồm những khoản đặt cược sớm vào Figma, Notion, Ramp, và Lattice. Khoản đầu tư robot đầu tiên của anh, Standard Bots, vào năm 2021 đã đưa anh quay lại với lĩnh vực mà anh yêu thích khi còn trẻ—xây dựng Lego Mindstorms. Anh đùa rằng mình “đi nghỉ nhiều hơn vì là nhà đầu tư”. Nhưng đầu tư chỉ là cách để duy trì hoạt động và gặp gỡ mọi người, không phải mục tiêu cuối cùng. “Tôi đã tìm kiếm trong năm năm một công ty để khởi động sau Stripe. Ý tưởng hay, thời điểm hợp, đội ngũ tuyệt vời—đó là hiếm. Tất cả là việc thực thi, nhưng bạn có thể thực thi cực kỳ tốt cho một ý tưởng tồi, và nó vẫn là một ý tưởng tồi.”
Image
Ảnh: Connie Loizos cho TechCrunch
Công ty mới hai năm tuổi đã huy động hơn 1 tỷ USD【https://aiphogpt.com】, và khi tôi hỏi về quỹ hoạt động, anh nhanh chóng làm rõ rằng công ty không tiêu tốn quá nhiều; phần lớn chi phí dành cho tính toán. Anh thừa nhận nếu có các điều kiện và đối tác thích hợp, họ sẽ huy động thêm. “Không có giới hạn về số tiền chúng tôi có thể đầu tư vào công việc,” anh nói. “Luôn luôn có thêm tài nguyên tính toán có thể bỏ vào vấn đề.”
Điều làm cho mô hình này đặc biệt là Groom không cung cấp cho các nhà đầu tư lộ trình thời gian để biến Physical Intelligence thành công ty sinh lời. “Tôi không cho các nhà đầu tư câu trả lời về thương mại hoá,” anh nói, nhắc tới các nhà đầu tư bao gồm Khosla Ventures, Sequoia Capital, và Thrive Capital, những người đã định giá công ty ở mức 5,6 tỷ USD. “Đó là một điều kỳ lạ mà mọi người vẫn chấp nhận.” Hiện tại, họ vẫn tiếp tục.
Vậy chiến lược là gì, nếu không phải thương mại hoá? Quan Vuong, một đồng sáng lập khác, đến từ Google DeepMind, giải thích rằng nó xoay quanh “học liên thân thể” và các nguồn dữ liệu đa dạng. Nếu ngày mai ai đó xây dựng một nền tảng phần cứng mới, họ sẽ không phải thu thập dữ liệu lại từ đầu—có thể truyền đạt toàn bộ kiến thức mà mô hình đã sở hữu. “Chi phí cận biên để đưa tự động hoá vào một nền tảng robot mới, bất kể nền tảng nào, chỉ là rất thấp,” anh nói.
Công ty hiện đang hợp tác với một vài đối tác trong lĩnh vực logistics, tạp hoá, và thậm chí một nhà sản xuất chocolate ở phía bên kia đường để kiểm tra xem hệ thống của họ đã đủ tốt cho tự động hoá thực tế chưa. Vuong khẳng định trong một số trường hợp, họ đã đạt được. Với triết lý “bất kỳ nền tảng nào, bất kỳ nhiệm vụ nào”, phạm vi thành công đủ lớn để bắt đầu liệt kê các công việc có thể tự động hoá ngay hôm nay.
Physical Intelligence không phải là công ty duy nhất theo đuổi tầm nhìn này. Cuộc chạy đua để xây dựng trí tuệ robot đa năng—nền tảng cho các ứng dụng chuyên biệt có thể được xây dựng lên, tương tự như các mô hình LLM gây chấn động thế giới ba năm trước—đang nóng lên. Skild AI, một startup có trụ sở tại Pittsburgh thành lập năm 2023, đã huy động 1,4 tỷ USD với mức định giá 14 tỷ USD【https://aiphogpt.com】 và đang theo đuổi một cách tiếp cận hoàn toàn khác. Trong khi Physical Intelligence vẫn tập trung vào nghiên cứu thuần túy, Skild AI đã triển khai thương mại “bộ não Skild” omni‑bodied và công bố rằng nó đã tạo ra 30 triệu USD doanh thu trong vài tháng cuối năm ngoái, phục vụ an ninh, nhà kho và sản xuất.
Image
Ảnh: Connie Loizos cho TechCrunch
Skild còn công khai chỉ trích các đối thủ trên blog của họ【https://aiphogpt.com】, cho rằng hầu hết “mô hình nền tảng robot” chỉ là các mô hình thị giác‑ngôn ngữ “ngụ trang” thiếu “trí tuệ vật lý thực sự” vì chúng dựa quá nhiều vào tiền huấn luyện trên quy mô internet thay vì mô phỏng dựa trên vật lý và dữ liệu robot thực tế.
Đây là một ranh giới triết học rõ rệt. Skild AI đặt cược vào việc triển khai thương mại sẽ tạo ra một vòng quay dữ liệu, cải tiến mô hình qua từng trường hợp thực tế. Physical Intelligence đặt cược vào việc không bị kéo theo bởi thương mại ngắn hạn sẽ cho phép họ tạo ra trí tuệ tổng quát mạnh hơn. Ai “đúng hơn” sẽ mất năm tháng để trả lời.
Trong lúc đó, Physical Intelligence vận hành với một sự trong sáng mà Groom mô tả là “không bình thường”. “Đây là một công ty thuần khiết. Khi nhà nghiên cứu có nhu cầu, chúng tôi đi thu thập dữ liệu để đáp ứng nhu cầu đó—hoặc phần cứng mới, hoặc bất cứ gì—rồi thực hiện. Không có yếu tố bên ngoài chi phối.” Công ty có một lộ trình 5‑10 năm cho những gì đội ngũ cho là có thể thực hiện. Đến tháng 18, họ đã “bứt phá” hết kế hoạch, anh nói.
Hiện công ty có khoảng 80 nhân viên và dự định mở rộng, mặc dù Groom mong “càng chậm càng tốt”. Thách thức lớn nhất, anh nói, là phần cứng. “Phần cứng thật sự rất khó. Mọi thứ chúng tôi làm khó hơn rất nhiều so với một công ty phần mềm.” Phần cứng hỏng, đến trễ, làm chậm các thí nghiệm. Các cân nhắc về an toàn cũng làm phức tạp mọi thứ.
Khi Groom vội vã sang buổi họp tiếp theo, tôi vẫn đứng xem các robot tiếp tục luyện tập. Quần vẫn chưa gập gọn. Áo vẫn còn lộn ngược. Các mảnh vỏ bìquô đang được chất thành đống ngăn nắp.
Có rất nhiều câu hỏi nổi bật: liệu có ai thực sự muốn một robot trong bếp của mình gọt rau củ không, vấn đề an toàn, chó phản ứng như thế nào khi có “kẻ xâm nhập” cơ khí, và liệu khoản tiền đổ vào có giải quyết được vấn đề đủ lớn không. Các bên ngoài cũng hoài nghi về tiến độ của công ty, liệu tầm nhìn có thể thực hiện được không, và liệu việc đặt cược vào trí tuệ tổng quát thay vì các ứng dụng cụ thể có hợp lý không.
Nếu Groom có bất kỳ nghi ngại nào, anh không để lộ ra. Anh làm việc cùng những người đã dấn thân vào vấn đề này trong nhiều thập kỷ và tin rằng thời điểm cuối cùng đã tới. Đó là tất cả những gì anh cần biết.

Bí mật:  Cách tôi dùng Uptime Kuma để giám sát dịch vụ tự host (và nhận cảnh báo khi chúng gặp sự cố)

Tags: Physical Intelligence, Robot AI, Multimodal Robotics

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top