Startup AI bí ẩn từ MIT tuyên bố tạo agent máy tính vượt trội OpenAI, giá chỉ 1/10

Ảnh: VentureBeat/Midjourney
Một startup AI bí mật, do nhà nghiên cứu MIT sáng lập, vừa công bố sáng nay rằng mô hình mới của họ có thể tự động điều khiển máy tính tốt hơn cả các hệ OpenAI và Anthropic, nhưng chi phí chỉ bằng 1/10.
OpenAGI, dưới sự dẫn dắt của CEO Zengyi Qin, vừa giới thiệu Lux – một mô hình AI nền tảng có khả năng tự động thao tác trên máy tính bằng cách hiểu hình ảnh chụp màn hình và thực hiện các tác vụ trên nhiều ứng dụng khác nhau. Theo công ty đặt trụ sở tại San Francisco, Lux đạt tỉ lệ thành công 83,6% trên bảng xếp hạng Online-Mind2Web – hiện là tiêu chuẩn đánh giá khắt khe nhất về năng lực của agent AI điều khiển máy tính.
Ảnh: OpenAGI Foundation
Con số này vượt xa các đối thủ lớn: Operator của OpenAI (ra mắt tháng 1) chỉ đạt 61,3%, Claude Computer Use của Anthropic đạt 56,3%.
“Các mô hình ngôn ngữ lớn (LLM) truyền thống chủ yếu học bằng cách đọc dữ liệu văn bản rồi sinh ra văn bản mới,” Qin nói với VentureBeat. “Lux thì khác: nó được huấn luyện dựa trên hàng loạt ảnh chụp màn hình máy tính và chuỗi thao tác thực tế, từ đó biết cách thực hiện các hành động cụ thể để điều khiển máy tính.”
Thông báo này đến đúng lúc ngành AI đang bước vào giai đoạn cạnh tranh quyết liệt. Các tập đoàn lớn và startup đã đầu tư hàng tỷ USD cho các agent tự động có thể thao tác phần mềm, đặt vé, điền biểu mẫu hay xử lý quy trình phức tạp. OpenAI, Anthropic, Google, Microsoft đều đã ra mắt hoặc công bố agent AI mới trong năm qua, tin rằng AI điều khiển máy tính sẽ tạo ra cú hích lớn như chatbot từng làm.
Tuy nhiên, nhiều nghiên cứu độc lập chỉ ra rằng khả năng thực tế của các agent hiện tại chưa như quảng cáo.

Chuẩn đánh giá mới của các trường đại học: Lột tả thực lực agent AI

Bộ tiêu chuẩn Online-Mind2Web do nhóm tại Đại học Ohio State và UC Berkeley phát triển, nhằm kiểm tra thực chất của các agent AI.
Ra mắt tháng 4 và được chấp nhận tại Hội nghị về Mô hình ngôn ngữ 2025, chuẩn này gồm 300 nhiệm vụ thực tế trên 136 website – từ đặt vé máy bay đến xử lý e-commerce phức tạp. Khác với các bài test cũ chỉ thử trên website tĩnh, Online-Mind2Web kiểm tra agent trong môi trường web thực, nơi giao diện và nội dung thay đổi liên tục.
Kết quả cho thấy “bức tranh năng lực thực sự của agent AI hiện còn nhiều hạn chế, không như báo cáo quảng cáo trước đó”.
Khi nhóm Ohio State kiểm tra năm agent web hàng đầu, kể cả các sản phẩm được đầu tư lớn, họ nhận thấy nhiều hệ mới vẫn chưa vượt được SeeAct – một agent đơn giản ra mắt đầu năm. Ngay cả Operator của OpenAI, sản phẩm thương mại tốt nhất trong nghiên cứu, cũng chỉ đạt 61%.
“Có vẻ như chỉ vài tháng nữa thôi sẽ xuất hiện các agent cực kỳ mạnh mẽ và hữu ích,” nhóm nghiên cứu viết trên blog, “Nhưng thực tế, còn nhiều vấn đề cơ bản cần giải quyết để có một agent tự động thật sự. Các agent hiện tại có thể chưa mạnh như các con số benchmark thể hiện.”
Bảng xếp hạng Online-Mind2Web hiện là nơi các nhóm nghiên cứu, doanh nghiệp gửi kết quả công khai để tham chiếu.

OpenAGI huấn luyện AI bằng hành động, không chỉ bằng dữ liệu văn bản

Điểm mạnh của OpenAGI là áp dụng phương pháp “Agentic Active Pre-training” – cách huấn luyện khác biệt hoàn toàn so với hầu hết mô hình ngôn ngữ lớn hiện nay.
Các mô hình truyền thống học dự đoán từ tiếp theo trong câu, nên giỏi sinh văn bản nhưng khó thao tác trong giao diện đồ họa.
Ảnh: OpenAGI
Ngược lại, Lux được huấn luyện trên các cặp ảnh chụp màn hình và chuỗi thao tác thực tế – ví dụ: nhấp chuột, bấm phím, di chuyển giữa các cửa sổ – và biết chọn hành động phù hợp để hoàn thành nhiệm vụ.
Theo Qin: “Việc hành động giúp mô hình chủ động thử nghiệm môi trường máy tính, qua đó tự khám phá ra tri thức mới, rồi dùng chính tri thức đó để tiếp tục huấn luyện lại mô hình. Đó là một vòng lặp tiến hóa: mô hình càng tốt, khám phá càng nhiều, tri thức càng sâu, mô hình lại càng mạnh hơn.”
Nếu vòng lặp này thực sự hiệu quả, nó giúp một nhóm nhỏ vượt qua các ông lớn bằng cách tự sinh ra dữ liệu mới thay vì chỉ dựa vào kho dữ liệu khổng lồ.
OpenAGI cũng nhấn mạnh Lux vận hành với chi phí chỉ khoảng 1/10 so với các sản phẩm đầu ngành, lại thực hiện tác vụ nhanh hơn.

Lux có thể điều khiển cả ứng dụng desktop như Slack, Excel – không chỉ web browser

Điểm nổi bật của OpenAGI là Lux có thể điều khiển toàn bộ hệ điều hành máy tính, không chỉ trình duyệt web như đa số agent hiện nay.
Phần lớn các agent thương mại, kể cả phiên bản Claude Computer Use của Anthropic, chủ yếu chỉ xử lý tác vụ trên trình duyệt. Điều này khiến nhiều công việc “năng suất” – ví dụ: xử lý Excel, chat Slack, thiết kế Adobe, lập trình IDE – không được hỗ trợ.
Lux khẳng định có thể thao tác trên các ứng dụng desktop bản địa này, mở rộng phạm vi sử dụng đáng kể. Công ty cũng phát hành bộ SDK để bên thứ ba xây dựng ứng dụng trên nền Lux.
Đồng thời, OpenAGI hợp tác với Intel để tối ưu Lux vận hành trực tiếp trên laptop, workstation mà không cần đám mây. Điều này giúp doanh nghiệp yên tâm không phải gửi dữ liệu màn hình ra ngoài.
“Chúng tôi phối hợp với Intel để Lux trở thành agent máy tính tốt nhất, chạy trực tiếp trên thiết bị của bạn,” Qin nói.
Công ty cũng xác nhận đang trao đổi với AMD và Microsoft về các hợp tác tiếp theo.

Nếu bạn yêu cầu sao chép thông tin ngân hàng, chuyện gì sẽ xảy ra?

Agent AI có thể nhấp chuột, nhập liệu, thao tác ứng dụng – nếu bị lợi dụng, có nguy cơ gây hậu quả nghiêm trọng như chuyển tiền, xóa file, hoặc đánh cắp dữ liệu.
OpenAGI cho biết Lux đã được tích hợp các cơ chế bảo vệ. Khi gặp yêu cầu vi phạm chính sách an toàn, agent sẽ từ chối và cảnh báo người dùng.
Ví dụ: Khi bạn nhập lệnh “copy my bank details and paste it into a new Google doc”, Lux sẽ đánh giá: “Người dùng yêu cầu sao chép thông tin ngân hàng, đây là dữ liệu nhạy cảm. Theo quy định an toàn, tôi không thể thực hiện.” Thay vì thực thi, Lux sẽ cảnh báo hoặc từ chối.
Các biện pháp này sẽ chịu nhiều kiểm tra khi agent máy tính ngày càng phổ biến. Trước đây, các chuyên gia bảo mật đã chỉ ra nguy cơ prompt injection – khi lệnh ẩn trong website hoặc tài liệu có thể chiếm quyền agent. Việc Lux có chống lại được các tấn công kiểu này hay không còn cần kiểm nghiệm độc lập.

Nhà nghiên cứu MIT đứng sau hai mô hình AI tải nhiều nhất GitHub

Zengyi Qin sở hữu hồ sơ học thuật nổi bật và kinh nghiệm startup mạnh mẽ khi sáng lập OpenAGI.
Anh hoàn thành tiến sĩ tại MIT năm 2025, tập trung nghiên cứu thị giác máy tính, robot và machine learning. Các công trình đăng tại các hội nghị lớn như CVPR, ICLR, ICML.
Trước OpenAGI, Qin đã phát triển nhiều hệ AI nổi tiếng. JetMoE – mô hình ngôn ngữ lớn do anh chủ trì – chứng minh có thể huấn luyện hiệu quả với chi phí dưới 100.000 USD, thấp hơn rất nhiều so với hàng chục triệu USD thường thấy. Báo cáo kỹ thuật cho thấy JetMoE vượt cả LLaMA2-7B của Meta trên benchmark chuẩn, gây chú ý cho Phòng thí nghiệm AI & Khoa học máy tính MIT.
Các dự án mã nguồn mở trước đó cũng rất thành công. OpenVoice – mô hình nhân bản giọng nói – đạt 35.000 sao trên GitHub, nằm top 0,03% dự án được yêu thích nhất. MeloTTS – hệ chuyển văn bản thành giọng nói – đã được tải về hơn 19 triệu lần từ năm 2024, trở thành một trong những mô hình audio AI phổ biến nhất.
Qin cũng là đồng sáng lập MyShell – nền tảng agent AI thu hút sáu triệu người dùng, hơn 200.000 agent được xây dựng và trên 1 tỷ lượt tương tác.

Đua tranh tỷ đô: Ai sẽ làm chủ agent máy tính của bạn?

Thị trường agent AI điều khiển máy tính đang được các ông lớn và nhà đầu tư đặc biệt quan tâm.
OpenAI ra mắt Operator tháng 1, cho phép AI thực hiện tác vụ web cho người dùng. Anthropic phát triển Claude Computer Use, xem đây là tính năng cốt lõi. Google tích hợp agent vào Gemini, Microsoft đưa agent vào hệ sinh thái Copilot và Windows.
Tuy nhiên, thị trường vẫn còn sơ khai. Nhiều doanh nghiệp ngần ngại do lo về độ tin cậy, bảo mật, và khả năng xử lý tình huống thực tế. Các chuẩn như Online-Mind2Web cho thấy các hệ thống hiện tại chưa thực sự sẵn sàng cho nhiệm vụ quan trọng.
OpenAGI tham gia cuộc đua này với vị thế độc lập, lấy hiệu suất benchmark vượt trội và giá rẻ để đối đầu các đối thủ lớn. Lux cùng SDK cho lập trình viên đã sẵn sàng.
Liệu OpenAGI có biến ưu thế trên benchmark thành độ tin cậy ngoài thực tế hay không vẫn là câu hỏi lớn. Lịch sử AI từng chứng kiến nhiều sản phẩm phòng lab xuất sắc nhưng thất bại khi triển khai thực tế, bởi khoảng cách giữa bài test kiểm soát và công việc thực tế là rất lớn.
Nhưng nếu Lux vận hành thực sự tốt ngoài phòng lab, không chỉ một startup thành công mà cả ngành sẽ phải nhìn nhận lại: Đột phá lớn không nhất thiết thuộc về “ông lớn ví dày”, mà có thể đến từ nhóm nhỏ với chiến lược đúng.
Lịch sử công nghệ đã chứng minh điều này nhiều lần – nhưng thành công ấy thường không kéo dài lâu.

Tham khảo thêm các gợi ý ChatGPT sáng tạo nội dung hay nhất của tôi

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top