Nvidia trưng bày năm giá đỡ hạ tầng AI tại GTC

Ảnh: Nvidia.

Những điểm chính của ZDNET

Nvidia đã trưng bày năm giá đỡ thiết bị, bao quát mọi khía cạnh của hạ tầng AI.
Nvidia cho rằng kinh tế AI sẽ tốt hơn khi tất cả các thành phần đều do mình cung cấp.
Tham vọng mở rộng của Nvidia còn bao gồm robot và thậm chí AI trong không gian.

Hình ảnh Nvidia cung cấp cho truyền thông tại hội nghị GTC ở San Jose, California tuần này là một dãy 40 hình chữ nhật đại diện cho các giá đỡ máy chủ trung tâm dữ liệu đa dạng. Không có nhãn, các giá đỡ đứng thành một “kệ sách” khổng lồ, giống như một đội quân xếp thành hàng.
Thông điệp tiềm ẩn của bức tường các giá đỡ ấn tượng này là: Nvidia muốn sở hữu toàn bộ chuỗi xử lý trong trung tâm dữ liệu, từ đầu đến cuối.
Cũng tham khảo: Hệ điều hành này âm thầm cung cấp sức mạnh cho mọi AI – và hầu hết các công việc CNTT trong tương lai
Trong buổi lễ khai mạc, CEO Nvidia Jensen Huang đã dùng bài phát biểu chính ngày thứ Hai để công bố việc mở rộng danh mục chip và hệ thống của công ty. Các dòng sản phẩm hiện có bao gồm chip CPU Vera, chip GPU Rubin, và giờ đây một loại giá đỡ mới dành cho suy luận ultra‑fast, gọi là LPX.

Một giá đỡ mới chỉ dành cho suy luận AI

Giá đỡ LPX dự kiến sẽ có mặt vào cuối năm nay, được tạo thành từ các chip do Nvidia thiết kế, dựa trên sở hữu trí tuệ mà công ty mua bản quyền vào tháng 12 từ startup AI Groq với mức giá 20 tỷ USD.
Công nghệ của Groq đã được cải tiến, triển khai trong Nvidia Groq 3 LPU, và sẽ được tích hợp trong LPX cùng với GPU Rubin để đạt cân bằng tối ưu giữa tốc độ suy luận và khối lượng dữ liệu có thể xử lý.

“Groq 3 LPU kết hợp khả năng tính FLOPS (số phép tính dấu chấm động mỗi giây) cực cao của GPU và băng thông của LPU trong một khối duy nhất,” Ian Buck, trưởng bộ phận cao cấp và tính toán hiệu năng cao của Nvidia, nói trong buổi họp báo.

Cũng tham khảo: Các cuộc tấn công đám mây đang nhanh hơn và chết người hơn – kế hoạch phòng thủ tốt nhất của bạn là gì?
Groq LPU (viết tắt của “Language Processing Unit”) tích hợp 500 MB SRAM trên chip – một dạng bộ nhớ nhanh gấp nhiều lần bộ nhớ đệm thường. SRAM này có thể lưu trữ các trọng số (tham số mạng nơ‑ron) của các mô hình ngôn ngữ lớn, đồng thời giữ “KV cache” – bộ nhớ tạm thời cho các kết quả trung gian, giúp tăng tốc suy luận.
Khi LPU được đặt trong cùng một giá đỡ với GPU, SRAM của LPU sẽ lấy dữ liệu cần thiết trực tiếp, giảm nhu cầu truy xuất DRAM ngoài chip – công việc mà GPU thường phải thực hiện. Bộ nhớ cache SRAM cục bộ này làm giảm đáng kể độ trễ, tức thời gian phản hồi cho một truy vấn, Buck giải thích.

“Những thứ trước đây mất cả ngày để trả lời truy vấn giờ sẽ được tạo ra trong chưa tới một giờ,” Buck nói.

Thay đổi kinh tế AI

Nvidia khẳng định LPU còn có khả năng xử lý truy vấn hiệu quả hơn. Theo báo cáo của công ty nghiên cứu thị trường TechInsights, dựa trên silicon Groq hiện có trước khi Nvidia mua lại, “energy per bit” (năng lượng tiêu thụ cho mỗi bit) khi truy cập bộ nhớ của LPU chỉ bằng 1/3 picojoule, tức là 20 lần ít hơn so với 6 picojoule của GPU khi truy cập DRAM.
Với cùng mức chi phí trên mỗi token, các Groq LPU trong giá đỡ LPX sẽ cung cấp 35 lần nhiều token mỗi giây trên mỗi megawatt công suất, Buck nói, dựa trên ví dụ 500.000 token được xử lý mỗi giây với giá 45 USD cho mỗi triệu token.

“Tốc độ truyền và lấy token tăng đáng kể cũng đồng nghĩa với tăng gấp 10 lần doanh thu mà nhà cung cấp AI có thể kiếm được trên mỗi megawatt,” Buck bổ sung.

Giảm phụ thuộc vào DRAM ngoài chip ngày càng quan trọng khi giá DRAM đang tăng mạnh.

Bí mật: Top 15 Gợi Ý Chỉnh Sửa Ảnh Google Gemini AI Cho Hình Ảnh Siêu Thực Đẹp Mắt

Tốt hơn khi bạn mua toàn bộ từ Nvidia

Giá đỡ LPX là một phần trong chiến lược tổng thể của Huang dành cho thế giới AI: công ty muốn cung cấp “kinh tế tốt hơn” bằng cách bán toàn bộ các thành phần của chuỗi – không chỉ chip Vera, Rubin và LPU, mà còn phần mềm chạy trên chúng.

“Từ lớp năng lượng, chip, hạ tầng, mô hình đến ứng dụng, hạ tầng đa lớp này đang thúc đẩy doanh thu và tạo việc làm,” Buck của Nvidia nói với các phóng viên.

LPX đứng trong hàng 40 hình chữ nhật cùng bốn giá đỡ khác mà Huang đã giới thiệu, tạo nên đề xuất của công ty cho một hạ tầng AI hoàn chỉnh:

Vera‑Rubin NVL72 – một giá đỡ gồm 72 CPU Rubin và 36 CPU Vera.
Giá đỡ CPU Vera – chỉ có CPU, chứa 256 CPU Vera và 400 TB DRAM.
Bluefield 4 STX – giá đỡ lưu trữ dữ liệu, hoạt động như kho lưu trữ KV cache cho tất cả GPU.
Spectrum‑6 SPX – phiên bản mới nhất của thiết bị mạng Ethernet của Nvidia.

Cũng tham khảo: Các mô hình AI vật lý của Nvidia mở đường cho robot thế hệ mới – có gì mới?
Buck giải thích rằng các giá đỡ CPU Vera tăng tốc mọi tác vụ AI có tính “đại lý” (agentic) mà một CPU x86 truyền thống của Intel hay AMD không thể đáp ứng.

“GPU ngày nay thực tế phải gọi tới CPU để thực hiện các công cụ, truy vấn SQL và biên dịch mã,” Buck nói. “Quá trình thực thi sandbox này là phần quan trọng cả trong huấn luyện và triển khai các agent trên trung tâm dữ liệu, và những CPU đó cần phải nhanh.”

Ông cho biết giá đỡ CPU Vera có thể nhanh 1,5 lần hơn các tác vụ đơn luồng trên CPU x86 hiện có. Kết quả là các giá đỡ STX sẽ tăng gấp 4 lần hiệu suất trên mỗi watt, gấp 2 lần tốc độ xử lý dữ liệu doanh nghiệp, và cung cấp 5 lần token mỗi giây cho bộ nhớ ngữ cảnh cần thiết cho các nhà máy AI chạy quy trình GenTech.

“Kết quả thật đáng kinh ngạc,” Buck nhấn mạnh.

Giá đỡ lưu trữ dữ liệu mới, Buck giải thích, là “một lớp chia sẻ băng thông cao được tối ưu để lưu trữ và truy xuất lượng dữ liệu KV cache khổng lồ do các LLM và quy trình GenTech tạo ra.” Mặc dù giá đỡ được cấu thành từ các DPU (đơn vị xử lý dữ liệu) Bluefield của Nvidia – đồng hành với CPU – nhưng STX chỉ là “kiến trúc tham chiếu”, nghĩa là các giá đỡ thực tế sẽ được thiết kế và xây dựng bởi các đối tác của Nvidia.

Bí mật: Luôn Dẫn Đầu Trước AI Trong Sự Nghiệp Của Bạn

Tham vọng mở rộng

Quy mô và tầm nhìn mà Huang trình bày trong bài phát biểu chủ đạo thật ấn tượng. Như đồng nghiệp Radhika Rajkumar đã đưa tin, Huang cũng nhấn mạnh đề xuất của mình cho AI có tính “đại lý”, NemoClaw, và nhiều giải pháp cho cái gọi là AI vật lý, chủ yếu là robot. Huang thậm chí còn nói tới AI trong không gian, dù chi tiết về việc triển khai máy chủ trên vệ tinh vẫn còn mơ hồ.
Buck mô tả bức tường các máy chủ khác nhau như “một thiết kế đồng bộ đầu‑cuối cực đoan nhằm mang lại giá trị tối đa cho nhà máy AI cho mọi khối lượng công việc và mọi ngành công nghiệp.”
Cũng tham khảo: Nvidia đặt cược vào OpenClaw, nhưng thêm lớp bảo mật – NemoClaw hoạt động như thế nào
Đây cũng là cách khôn ngoan của Nvidia để làm nổi bật đề xuất giá trị của mình với bất kỳ ai đang cân nhắc sử dụng CPU và GPU của đối thủ AMD, hoặc các thiết bị AI kỳ lạ từ các startup như Cerebras Systems. Với danh mục năm giá đỡ thiết bị, bao phủ mọi chức năng của trung tâm dữ liệu, Huang đang nói với khách hàng rằng khi toàn bộ được cung cấp bởi Nvidia, mọi thứ sẽ hoạt động hiệu quả hơn và tạo ra nhiều doanh thu AI hơn.

Bí mật: Cách Tôi Tối Ưu CV Để Nhận Offer Data Science & Machine Learning Trên 100.000 USD

Tags: Nvidia AI, LPX Rack, GTC Conference