Nvidia Ra Mắt Mô Hình AI Mở‑Weight Tốt Nhất Đến Nay—Nhưng Vẫn Thua Trung Quốc

Jensen Huang bước lên sân khấu Computex ở Đài Bắc vào Chủ nhật, khoác áo da, và công bố Nemotron 3 Ultra—mô hình mở‑weight (open‑weight) lớn nhất mà Nvidia từng ra mắt, và hiện tại là mô hình mở‑weight thông minh nhất được xây dựng tại Mỹ. Mô hình này rất ấn tượng, nhưng vẫn chưa đủ để vượt qua các đối thủ Trung Quốc.

Mô hình có khoảng 550 tỷ tham số tổng cộng, nhưng ở bất kỳ thời điểm nào chỉ sử dụng 55 tỷ tham số hoạt động nhờ kiến trúc mixture‑of‑experts (hỗn hợp chuyên gia). Số lượng tham số quyết định “độ bao phủ kiến thức” của một mô hình AI; càng nhiều tham số thường đồng nghĩa với sức mạnh càng cao.

Để hiểu cách hoạt động của mixture‑of‑experts, hãy tưởng tượng một bệnh viện có hàng trăm chuyên gia: khi bệnh nhân đến, chỉ những bác sĩ liên quan mới xuất hiện—không phải toàn bộ nhân viên. Cách tiếp cận này giúp giảm chi phí vận hành mô hình so với việc sử dụng toàn bộ tham số, và vì thế Nvidia có thể khẳng định tốc độ suy luận nhanh gấp 5 lần và giảm chi phí 30 % so với các mô hình mở‑weight tương đương.

Đánh giá độc lập của Artificial Analysis, đơn vị đã hợp tác với Nvidia trong giai đoạn thẩm định trước khi ra mắt, cho Nemotron 3 Ultra đạt 48 điểm trên chỉ số Intelligence Index — tiêu chuẩn tổng hợp dựa trên 10 bài kiểm tra, bao gồm lý luận, lập trình, kiến thức chung và khả năng hành động như một tác nhân, với thang điểm tăng tương ứng với mức độ thông minh.

Điều này khiến Nemotron 3 Ultra trở thành mô hình mở‑weight của Mỹ đứng đầu một cách rõ rệt. Các mô hình kế tiếp gần nhất của Mỹ là Gemma 4 31B của Google (39 điểm), Nemotron 3 Super (36 điểm), và gpt‑oss‑120b của OpenAI (33 điểm).

“NVIDIA vừa công bố việc ra mắt Nemotron 3 Ultra trong bài phát biểu tại Computex của Jensen Huang: với 550 tỷ tham số (55 tỷ hoạt động), đây là mô hình Nemotron 3 lớn nhất tới nay và là mô hình mở‑weight thông minh nhất của Mỹ.” — Artificial Analysis, 1 tháng 6 2026 (link)

Khoảng cách so với phiên bản tiền nhiệm của nó khá ấn tượng. Nemotron 3 Super, ra mắt vào tháng 3 2026 với 120 tỷ tham số, đã được xem là một mô hình mở vững chắc cho các tác nhân tự động. Ultra vượt lên 12 điểm so với nó, đánh dấu một bước nhảy lớn trong bối cảnh benchmark hiện tại.

Bí mật: Vì sao những kỹ năng lãnh đạo đã xây dựng sự nghiệp của bạn sẽ không còn hiệu quả vào năm 2026

Những gì về dòng Nemotron

Nvidia đã tham gia vào lĩnh vực mô hình AI lâu hơn nhiều so với người ta nghĩ. Dòng mô hình Nemotron đầu tiên xuất hiện vào tháng 11 2023, và thế hệ thứ ba được công bố vào tháng 12 2025.

Dòng sản phẩm bao gồm ba kích thước:

Nano – dành cho các tác vụ nhẹ
Super – dành cho các ứng dụng doanh nghiệp tầm trung
Ultra – dành cho các khối lượng công việc suy luận phức tạp

Cả ba đều chia sẻ cùng một kiến trúc lai (hybrid), kết hợp lớp Mamba‑2, cơ chế attention chuẩn của Transformer và routing mixture‑of‑experts.

Mamba‑2 là một giải pháp thay thế cho attention truyền thống, xử lý chuỗi dài với chi phí chỉ bằng một phần nhỏ—rất hữu ích khi bạn cần một mô hình có khả năng lưu trữ một triệu token trong bộ nhớ đồng thời. Nemotron 3 Ultra hỗ trợ cửa sổ ngữ cảnh 1 triệu token, nghĩa là một tác nhân lý thuyết có thể “nhìn” toàn bộ một cơ sở mã lớn hoặc hàng trăm tài liệu nghiên cứu cùng một lúc.

Mô hình Ultra còn tích hợp kỹ thuật dự đoán đa token (Multi‑Token Prediction – MTP), cho phép dự đoán đồng thời nhiều token tương lai thay vì một token một lần, nhờ đó tốc độ sinh nội dung được tăng lên. Cả ba mô hình Nemotron 3 đều được huấn luyện tiếp bằng reinforcement learning trong nhiều môi trường tương tác, dạy chúng lên kế hoạch và thực thi các nhiệm vụ đa bước thay vì chỉ trả lời câu hỏi.

Bí mật: Nhóm Qwen phát hành Qwen3-TTS: Bộ công cụ TTS đa ngôn ngữ mã nguồn mở với độ trễ thời gian thực

Trọng số của Ultra được công khai và công thức huấn luyện cũng sẽ được phát hành. Bạn có cần một siêu máy tính để chạy nó không? Về cơ bản, có—một mô hình 550 tỷ tham số chỉ tồn tại trong các trung tâm dữ liệu. Tuy nhiên bạn vẫn có thể truy cập qua API của Nvidia hoặc các nhà cung cấp đám mây mà không cần sở hữu phần cứng, giống như cách mọi người đã dùng GPT hoặc Claude qua trình duyệt.

Mô hình nhanh, nhưng trí tuệ thấp hơn

Câu chuyện về tốc độ thực sự là điểm nổi bật của Nemotron 3 Ultra. Trên một endpoint DeepInfra trước khi phát hành, mô hình đạt hơn 300 token đầu ra mỗi giây. Các mô hình Trung Quốc cùng cấp độ trí tuệ—DeepSeek V4 Pro và Kimi K2.6—hiện đang cung cấp từ 50–100 token mỗi giây qua API thương mại của họ. Khoảng cách tốc độ này rất quan trọng đối với các triển khai thực tế, đặc biệt là các tác nhân tự động thực hiện chuỗi nhiệm vụ dài, nơi thời gian chờ mỗi bước tích lũy nhanh chóng.

Nhưng tốc độ thuần túy không quyết định cuộc tranh tài trí tuệ. Biểu đồ do Artificial Analysis công bố cho thấy thực tế rõ ràng. Trên trục dọc—trí tuệ—Nemotron 3 Ultra đứng ở 48, trong khi Kimi K2.6 của Moonshot AI (Trung Quốc) đạt 54. Khoảng cách sáu điểm trên chỉ số này là một chênh lệch đáng kể: Kimi K2.6 được ra mắt vào tháng 4 2026 và hiện đang đứng vị trí thứ tư trong tất cả các mô hình AI toàn cầu, dù là mở hay đóng, chỉ cách các mô hình độc quyền của Anthropic, Google và OpenAI (đều đạt 57) ba điểm.

Tình trạng mở‑weight của Mỹ không phải là mới. Các phòng thí nghiệm Trung Quốc đã liên tục đổ nguồn lực vào hệ sinh thái mở với những mô hình mạnh, trong khi các công ty Mỹ—OpenAI, Anthropic, Google—giữ các hệ thống tốt nhất phía sau các API. Như Decrypt đã đưa tin vào tháng 3, các mô hình mã nguồn mở của Trung Quốc đã tăng từ khoảng 1,2 % tổng mức sử dụng mô hình mở toàn cầu cuối 2024 lên khoảng 30 % vào cuối 2025. Nvidia là tên tuổi Mỹ lớn nhất đang nỗ lực đảo ngược xu hướng này, với một kế hoạch năm năm công khai dự kiến chi 26 tỷ USD cho phát triển AI mở‑weight.

Bí mật: OpenAI Ra Mắt ChatGPT Images 2.0 – Khả Năng Hiển Thị Văn Bản Tốt Hơn, Hỗ Trợ Nhiều Tỷ Lệ Khung Hình Và Độ Phân Giải Cao Hơn

Nemotron 3 Ultra là kết quả cụ thể và nổi bật nhất của cược này cho đến nay. Nvidia cũng đã công bố đang phát triển Nemotron 4—thế hệ tiếp theo—được xây dựng thông qua Nemotron Coalition, một nhóm gồm tám phòng thí nghiệm AI, trong đó có Mistral AI và Perplexity, được Nvidia tập hợp vào tháng 3 2026 để cùng phát triển các mô hình biên giới mở trên hạ tầng DGX Cloud. Nemotron 3 Ultra sẽ có mặt trên thị trường từ ngày 4 tháng 6.

Nvidia, Open-weight, AI