Nvidia vừa ra mắt Nemotron 3 Super, mô hình trọng lượng mở 120 tỷ tham số được thiết kế để chạy các tác nhân AI tự động mà không làm cạn kiệt ngân sách tính toán

Nvidia vừa công bố Nemotron 3 Super, một mô hình trọng lượng mở với 120 tỷ tham số, được tối ưu để thực hiện một nhiệm vụ duy nhất một cách xuất sắc: chạy các tác nhân AI tự động mà không “giảm” ngân sách tính toán.

Đây không phải là một vấn đề nhỏ. Các hệ thống đa‑tác nhân tạo ra lượng token nhiều hơn rất nhiều so với một cuộc trò chuyện bình thường—mỗi lần gọi công cụ, mỗi bước suy luận, và mỗi đoạn ngữ cảnh đều được gửi lại từ đầu. Kết quả là chi phí bùng nổ, mô hình dễ bị “model drift”, và các tác nhân dần quên mục tiêu ban đầu… hoặc ít nhất là độ chính xác giảm sút.

Nemotron 3 Super chính là câu trả lời của Nvidia cho tất cả những vấn đề trên. Mô hình chỉ kích hoạt 12 tỷ tham số trong tổng số 120 tỷ, nhờ kiến trúc “mixture‑of‑experts” (MoE) giúp giảm chi phí suy luận trong khi vẫn duy trì độ sâu suy luận cần thiết cho các quy trình phức tạp. Nó còn sở hữu cửa sổ ngữ cảnh lên tới 1 triệu token (khoảng 750 nghìn từ), cho phép các tác nhân giữ toàn bộ codebase trong bộ nhớ trước khi “sụp đổ”.

Để xây dựng mô hình này, Nvidia kết hợp ba thành phần hiếm khi xuất hiện cùng nhau trong một kiến trúc:

Các lớp trạng thái Mamba‑2 – giải pháp nhanh hơn, tiết kiệm bộ nhớ hơn so với attention, thích hợp cho việc xử lý chuỗi token dài.
Các lớp attention dạng Transformer – đảm bảo khả năng hồi tưởng chính xác.
Thiết kế “Latent MoE” – nén các embedding của token trước khi chuyển chúng tới các chuyên gia (experts), cho phép mô hình kích hoạt gấp bốn lần số chuyên gia mà không tăng chi phí tính toán.

Mô hình còn được huấn luyện nguyên bản trên NVFP4, định dạng floating‑point 4‑bit của Nvidia. Điều này có nghĩa là hệ thống đã học cách hoạt động chính xác trong môi trường 4‑bit ngay từ lần cập nhật gradient đầu tiên, thay vì được huấn luyện ở độ chính xác cao rồi nén lại – quy trình thường làm giảm độ chính xác.

Bí mật: Prompt Midjourney để Thiết kế Bìa Sách: Thu hút độc giả bằng hình ảnh nổi bật

Đối với ngữ cảnh, độ chính xác của mô hình được đo bằng số bit. Độ chính xác đầy đủ (FP32) là tiêu chuẩn vàng nhưng rất tốn kém khi mở rộng. Các nhà phát triển thường giảm độ chính xác để tiết kiệm tính toán, đồng thời cố gắng giữ lại hiệu năng. Hãy tưởng tượng việc thu nhỏ một ảnh 4K xuống 1080p: hình ảnh vẫn trông ổn lúc nhìn sơ lược, chỉ thiếu đi một số chi tiết. Thông thường, việc giảm từ 32‑bit xuống 4‑bit sẽ làm suy giảm đáng kể khả năng suy luận của mô hình. Nemotron tránh được vấn đề này bằng cách học cách hoạt động ở độ chính xác thấp ngay từ đầu.

So với phiên bản tiền nhiệm, Nemotron 3 Super cung cấp hơn năm lần throughput. So với các đối thủ bên ngoài, nó nhanh gấp 2,2× so với GPT‑OSS 120B của OpenAI (về tốc độ suy luận) và nhanh gấp 7,5× so với Qwen 3.5‑122B của Alibaba.

Chúng tôi đã thực hiện một thử nghiệm nhanh. Khả năng suy luận vẫn ổn định ngay cả khi đầu vào cố ý mơ hồ, diễn đạt kém, hoặc dựa trên thông tin sai lệch. Mô hình tự động phát hiện các lỗi nhỏ trong ngữ cảnh mà không cần được yêu cầu, giải quyết các bài toán toán học và logic một cách mạch lạc, và không “sụp đổ” khi câu hỏi có chút sai lệch.

Quy trình đào tạo đầy đủ đã được công khai: trọng số trên Hugging Face, 10 nghìn tỷ token tiền huấn luyện được tuyển chọn, tổng cộng 25 nghìn tỷ token trong suốt quá trình đào tạo, 40 triệu mẫu sau đào tạo, và các công thức học tăng cường (reinforcement learning – RL) trên 21 cấu hình môi trường. Các công ty như Perplexity, Palantir, Cadence và Siemens đã tích hợp mô hình này vào quy trình làm việc của mình.

Kế hoạch chi 26 tỷ USD

Mô hình này có thể chỉ là một phần của chiến lược lớn hơn. Một báo cáo tài chính năm 2025 cho thấy Nvidia dự định chi 26 tỷ USD trong vòng năm năm tới để xây dựng các mô hình AI trọng lượng mở. Các giám đốc cấp cao cũng đã xác nhận điều này.

Bí mật: Tavily huy động 25 triệu USD để kết nối AI với Internet

Bryan Catanzaro, phó chủ tịch nghiên cứu ứng dụng deep‑learning, nói với Wired rằng công ty gần đây đã hoàn thành việc tiền huấn luyện một mô hình 550 tỷ tham số. Nvidia đã ra mắt mô hình Nemotron đầu tiên vào tháng 11 2023, nhưng báo cáo tài chính này cho thấy đây không còn là dự án phụ.

Khoản đầu tư này mang tính chiến lược vì các chip của Nvidia vẫn là hạ tầng mặc định cho việc đào tạo và chạy các mô hình tiên tiến. Các mô hình được tối ưu cho phần cứng của Nvidia mang lại cho khách hàng lý do “gắn bó” với Nvidia ngay cả khi các đối thủ cố gắng chuyển sang phần cứng khác. Tuy nhiên, còn một áp lực cấp bách hơn: Mỹ đang mất dần cuộc đua AI mã nguồn mở, và tốc độ mất mát đang tăng nhanh.

China Plays the Long Game in AI While US Chases Superintelligence: Brookings

Các mô hình mở của Trung Quốc đã tăng từ khoảng 1,2 % tổng lượng mô hình mở toàn cầu vào cuối năm 2024 lên gần 30 % vào cuối năm 2025, theo nghiên cứu của OpenRouter và Andreessen Horowitz. Qwen của Alibaba đã vượt qua Llama của Meta để trở thành mô hình mở‑nguồn tự‑lưu trữ được sử dụng nhiều nhất. Các công ty Mỹ—bao gồm cả Airbnb—đã áp dụng nó cho dịch vụ khách hàng. Các startup trên toàn thế giới đang xây dựng trên nền tảng này. Ngoài thị phần, việc áp dụng rộng rãi còn tạo ra các phụ thuộc hạ tầng khó đảo ngược.

Trong khi các ông lớn Mỹ như OpenAI, Anthropic và Google vẫn giữ các mô hình tốt nhất của mình sau các API, các phòng thí nghiệm Trung Quốc từ DeepSeek tới Alibaba liên tục đổ nguồn vào hệ sinh thái mở. Meta là công ty Mỹ duy nhất còn tham gia vào nguồn mở với Llama, nhưng Zuckerberg gần đây đã gợi ý rằng công ty có thể không mở hoàn toàn các mô hình tương lai.

Bí mật: iPhone Air 2 – Những Tính Năng Được Đồn Thổi: Liệu Có Đáng Mua?

Khoảng cách giữa “mô hình độc quyền tốt nhất” và “mô hình mở tốt nhất” trước đây rất lớn—và nghiêng về phía Mỹ. Hiện khoảng cách này đã thu hẹp đáng kể, và phía mở ngày càng chiếm ưu thế bởi Trung Quốc.

Cũng có một mối đe dọa phần cứng tiềm ẩn. Một mô hình DeepSeek mới dự kiến sẽ ra mắt sớm, và tin đồn cho rằng nó được huấn luyện hoàn toàn trên các chip do Huawei sản xuất—một công ty Trung Quốc đang bị cấm. Nếu thông tin này được xác nhận, nó sẽ cung cấp cho các nhà phát triển trên toàn thế giới, đặc biệt là ở Trung Quốc, một lý do cụ thể để thử nghiệm phần cứng của Huawei. AI Ziphu của Trung Quốc đã bắt đầu làm điều đó.

Đó chính là kịch bản mà Nvidia cần ngăn chặn nhất: các mô hình mở của Trung Quốc và các chip Trung Quốc xây dựng một hệ sinh thái không cần đến Nvidia.

Tags: Nvidia, AI, Open-Source Models