Nemotron 3 Nano Omni hiện có dưới dạng dịch vụ vi mô Nvidia NIM. (Samuel Boivin/Shutterstock.com.)
Nvidia đã công bố việc ra mắt Nemotron 3 Nano Omni, một mô hình AI đa phương tiện mở được thiết kế để hợp nhất xử lý hình ảnh, âm thanh và ngôn ngữ trong một hệ thống duy nhất.
Mô hình này nhằm giải quyết những hạn chế hiện tại của các hệ thống dạng agentic, vốn thường dùng các mô hình riêng biệt cho từng định dạng dữ liệu, dẫn đến độ trễ tăng và ngữ cảnh bị phân mảnh trong quá trình hoạt động của AI.
Các công ty như Applied Scientific Intelligence, Aible, Foxconn, Eka Care, H Company, Palantir và Pyler đã bắt đầu tích hợp Nemotron 3 Nano Omni vào giải pháp của mình.
Các đánh giá bổ sung đang được thực hiện tại các tổ chức như Dell Technologies, K‑Dense, Docusign, Lila, Infosys, Oracle và Zefr.
Mô hình mới của Nvidia tích hợp các bộ mã hoá hình ảnh và âm thanh qua kiến trúc hỗn hợp 30B‑A3B “mixture‑of‑experts”, cho phép suy luận nhanh hơn và hiệu quả hơn. Cách tiếp cận thống nhất này cho phép các tác nhân AI xử lý đồng thời video, âm thanh, hình ảnh và văn bản. Theo Nvidia, điều này mang lại thông lượng cao tới chín lần so với các mô hình đa phương tiện mở hiện có có chức năng tương tự. Nhờ đó, chi phí vận hành giảm và khả năng mở rộng được cải thiện, cho phép triển khai các tác nhân AI phản hồi nhanh nhưng vẫn tiết kiệm tài nguyên.
Nemotron 3 Nano Omni được áp dụng cho các trường hợp sử dụng như tương tác máy tính, phân tích tài liệu và hiểu nội dung truyền thông. Ví dụ, trong dịch vụ khách hàng hoặc tài chính, mô hình có thể xử lý các bản ghi màn hình, âm thanh cuộc gọi và phân tích các tài liệu phức tạp, giảm thiểu nhu cầu dùng các hệ thống riêng biệt cho từng loại dữ liệu.
Mô hình cũng có thể hoạt động cùng các mô hình Nemotron khác, chẳng hạn như Nemotron 3 Super và Nemotron 3 Ultra, cũng như các giải pháp độc quyền, để hỗ trợ quy trình làm việc AI liên quan đến lập kế hoạch phức tạp và trí tuệ xử lý tài liệu.
Gần đây, H Company đã triển khai Nemotron 3 Nano Omni trong một tác nhân máy tính, tận dụng khả năng hỗ trợ độ phân giải gốc cao của mô hình để điều hướng và hiểu giao diện người dùng đồ họa trong các thí nghiệm trên bộ chuẩn OSWorld. Giám đốc điều hành H Company, Gautier Cloix, cho biết: “Nhờ xây dựng trên nền Nemotron 3 Nano Omni, các tác nhân của chúng tôi có thể nhanh chóng giải mã các bản ghi màn hình Full HD — điều mà trước đây không khả thi.”
Trong môi trường doanh nghiệp, mô hình cho phép đánh giá và giải thích tài liệu, bảng biểu, biểu đồ và các đầu vào hỗn hợp truyền thông, hỗ trợ phân tích tuân thủ quy định hoặc kiểm soát. Nemotron 3 Nano Omni được cung cấp kèm theo trọng số mở, bộ dữ liệu và phương pháp đào tạo, cho phép các tổ chức tùy chỉnh và triển khai theo yêu cầu, đồng thời đáp ứng các tiêu chuẩn về địa phương hoá dữ liệu hoặc quy định pháp lý. Các nhà phát triển có thể dùng bộ công cụ Nvidia NeMo để tùy chỉnh, đánh giá và tối ưu mô hình cho các nhu cầu ngành cụ thể.
Dòng sản phẩm Nemotron, bao gồm các biến thể Nano, Super và Ultra, đã đạt hơn 50 triệu lượt tải trong năm qua, và phiên bản Omni hiện mở rộng khả năng sang các lĩnh vực mới. Nemotron 3 Nano Omni có sẵn dưới dạng dịch vụ vi mô Nvidia NIM qua các nền tảng như Hugging Face, OpenRouter, build.Nvidia.com, và được hỗ trợ bởi nhiều đối tác đám mây và nền tảng suy luận của Nvidia. Kiến trúc của nó cho phép triển khai trên đa dạng môi trường tính toán, từ hệ thống cục bộ, thiết bị biên, tới các trung tâm dữ liệu đám mây quy mô lớn.
Đầu tháng này, Cadence đã mở rộng sự hợp tác công nghệ với Nvidia nhằm thúc đẩy AI dạng agentic, mô phỏng dựa trên vật lý và các ứng dụng bản sao kỹ thuật số trong thiết kế hệ thống và kỹ thuật.
Nvidia,Multimodal AI,AI






