ChipNeMo của Nvidia: Mô hình ngôn ngữ lớn (LLM) quy mô nhỏ nhưng cực kỳ chuyên sâu

Suốt hơn 16 năm qua, hội nghị GTC thường niên của Nvidia luôn ngập tràn các bài phát biểu và thuyết trình về vô vàn ứng dụng của GPU, vượt xa khỏi phạm vi render đồ họa 3D thông thường. Năm nay cũng không phải là ngoại lệ, nhưng đằng sau những buổi nói chuyện ấy là một góc nhìn sâu sắc về quy trình thiết kế chip của Nvidia, nơi trí tuệ nhân tạo (AI) đóng vai trò then chốt.
Bill Dally, nhà khoa học trưởng của Nvidia, đã hé lộ những khía cạnh hậu trường này trong cuộc trò chuyện với đồng nghiệp Jeff Dean đến từ Google, xoay quanh chủ đề “đưa AI tiến tới những biên giới mới”. Điểm đáng chú ý đầu tiên (xin cảm ơn Bearly AI trên mạng X) là cách Nvidia sử dụng các tác nhân AI khi chuyển đổi sang một quy trình sản xuất bán dẫn (process node) mới.

“Mỗi khi có một quy trình bán dẫn mới, chúng tôi phải chuyển đổi toàn bộ thư viện cell tiêu chuẩn sang quy trình đó. Thư viện này bao gồm khoảng 2.500 – 3.000 cell. Trước đây, một đội gồm tám người phải mất khoảng 10 tháng để hoàn thành, tương đương 80 người-tháng,” Dally chia sẻ.
“Sau đó, chúng tôi phát triển một chương trình dựa trên học tăng cường có tên NVCell — hiện tại chúng tôi đã có phiên bản NVCell 2 hoặc 3. Chương trình này chạy suốt đêm trên một GPU và cho ra kết quả vượt trội so với thiết kế của con người… xét trên các tiêu chí như chất lượng, kích thước cell, mức tiêu thụ năng lượng và độ trễ. Hiệu suất của nó ngang bằng hoặc thậm chí vượt xa con người.”

Thực chất, thư viện cell là một tập hợp lớn các bản thiết kế sẵn của các cổng logic, linh kiện điện tử và các mạch kết nối giữa chúng. Thay vì phải thiết kế lại toàn bộ khi muốn bố trí các đơn vị xử lý kết cấu (texture units) mới trong GPU, phần mềm sẽ trích xuất các thành phần cần thiết từ thư viện này. Mỗi quy trình sản xuất mới (ví dụ từ TSMC) đều yêu cầu các bản thiết kế này được điều chỉnh lại do kích thước và cách bố trí vật lý của các cổng logic thay đổi. Dù NVCell đã được ứng dụng trong vài năm, nhưng con số cụ thể về lượng cell trong thư viện vẫn chưa được công bố chi tiết.
—

Bí mật: Làm Sao Để Rút Bản Thân Khỏi Quy Trình Bán Hàng Mà Không Ảnh Hưởng Đến Doanh Nghiệp

AI tăng tốc quy trình kiểm tra thiết kế

“Chúng tôi sở hữu mô hình F. Về cơ bản, đây là mô hình mô phỏng hoạt động của GPU khi thiết kế đã hoàn thiện và bản vẽ được gửi đến TSMC để sản xuất chip. Mục tiêu của chúng tôi là rút ngắn khoảng thời gian này. Yếu tố tốn nhiều thời gian nhất trong toàn bộ chuỗi quy trình chính là khâu kiểm tra thiết kế. Do đó, chúng tôi đang tìm cách ứng dụng AI để xác minh tính hoạt động của các thiết kế một cách nhanh chóng hơn.”

Các tác nhân AI cũng đang được sử dụng để khám phá những phương pháp tiếp cận mới trong thiết kế chip. Nvidia có một chương trình tên là prefix RL, áp dụng học tăng cường để giải quyết bài toán kinh điển về việc sắp xếp các giai đoạn dự báo (look-ahead) trong mạch cộng có dự báo nhớ (carry-lookahead).

“Đây là một vấn đề đã được nghiên cứu từ những năm 1950, và chương trình RL này giải quyết nó giống như đang chơi một trò game Atari. Mục tiêu của nó không phải là tạo ra bộ cộng nhanh nhất bằng mọi giá, mà là tạo ra một bộ cộng đáp ứng đủ yêu cầu về thời gian, đồng thời phải nhỏ gọn và tiêu thụ ít năng lượng nhất có thể.”
“Chương trình này đưa ra những thiết kế hoàn toàn kỳ lạ mà con người chưa từng nghĩ tới, nhưng trên thực tế, chúng hiệu quả hơn các thiết kế do con người tạo ra từ 20% – 30%.”

—
Chú thích: ChipNeMo của Nvidia là một LLM quy mô nhỏ nhưng cực kỳ chuyên sâu – Nguồn: Nvidia
Không phải mọi thứ đều chỉ xoay quanh sự khám phá hay tốc độ. Nvidia cũng đã tinh chỉnh các mô hình ngôn ngữ lớn tổng quát như ChipNeMo và BugNeMo bằng cách cung cấp cho chúng toàn bộ tài liệu thiết kế độc quyền — bao gồm các tệp RTL, đặc tả kiến trúc, v.v.

“Giờ đây, bạn có trong tay một LLM thực sự am hiểu sâu sắc về thiết kế GPU.”
“Một trong những lợi ích lớn nhất là dành cho các kỹ sư thiết kế trẻ. Các chuyên gia senior trước đây phải耗费 rất nhiều thời gian để giải thích những điều cơ bản (ví dụ: cách một đơn vị xử lý kết cấu hoạt động). Giờ đây, các kỹ sư trẻ có thể hỏi ChipNeMo, và nó sẽ giải thích chi tiết đến từng khía cạnh.”

Hy vọng Nvidia đã thiết lập các cơ chế kiểm soát chặt chẽ để ngăn chặn hiện tượng “ảo giác” (hallucination) của LLM — nếu không, chiếc RTX 6090 có lẽ chỉ còn hữu dụng để… nấu ăn trong bếp mà thôi!
—

Bí mật: Cách tùy chỉnh tỷ lệ khung hình với Nano Banana và Gemini 2.5 Flash Image AI

Liên kết và Tham khảo

Phỏng vấn YouTube với Bill Dally & Jeff Dean: https://www.youtube.com/watch?v=joTYgvRHST0
Tweet của Bearly AI: https://x.com/bearlyai/status/2043052190982639797
Bài báo NVCell: https://research.nvidia.com/publication/2021-12_nvcell-standard-cell-layout-advanced-technology-nodes-reinforcement-learning
Mô tả Prefix RL: https://feldmann.nyc/blog/carry-lookahead-adder
Bài viết về ChipNeMo: https://tech.yahoo.com/ai/articles/nvidias-ai-helping-engineers-bring-040843368.html

Tags: Nvidia, Chip Design AI, LLM ChipNeMo