Ảnh: TechCrunch / Julie Bort
Ngay sau khi CEO Amazon, Andy Jassy, công bố thỏa thuận đầu tư 50 tỷ USD của AWS vào OpenAI, Amazon đã mời tôi tham quan riêng phòng thí nghiệm phát triển chip – trung tâm của thỏa thuận – và chịu hầu hết chi phí chuyến đi.
Các chuyên gia trong ngành đang theo dõi chip Trainium của Amazon, được sản xuất tại cơ sở này, vì tiềm năng giảm chi phí suy luận AI và có thể làm suy yếu vị thế gần như độc quyền của Nvidia.
Tò mò, tôi đã đồng ý tham gia.
—
Những người hướng dẫn
Những người hướng dẫn tôi trong ngày hôm đó là Giám đốc phòng thí nghiệm, Kristopher King (được chụp ở phía bên phải) và Giám đốc kỹ thuật, Mark Carroll (ở phía bên trái), cùng với người phụ trách PR của đội – Doron Aronson (được chụp cùng tôi ở phần sau).
Ảnh: TechCrunch / Julie Bort
AWS đã là nền tảng đám mây chính của Anthropic từ những ngày đầu, một mối quan hệ đủ mạnh để tồn tại ngay cả khi Anthropic sau này thêm Microsoft vào danh sách đối tác đám mây. Đồng thời, Amazon đang mở rộng hợp tác với OpenAI.
Thỏa thuận với OpenAI khiến AWS trở thành nhà cung cấp duy nhất cho công cụ xây dựng đại lý AI mới Frontier, một thành phần có khả năng đóng vai trò quan trọng trong mô hình kinh doanh của OpenAI nếu các đại lý thực sự bùng nổ như dự đoán. Financial Times cho biết Microsoft có thể cho rằng thỏa thuận OpenAI‑Amazon vi phạm hợp đồng của mình với OpenAI, vì hợp đồng cho phép Microsoft truy cập toàn bộ mô hình và công nghệ của OpenAI.
—
Tại sao AWS quan trọng đối với OpenAI
Trong khuôn khổ thỏa thuận, đơn vị đám mây của AWS đã đồng ý cung cấp cho OpenAI 2 GW công suất tính toán Trainium – một cam kết khổng lồ, trong khi Anthropic và dịch vụ Bedrock của Amazon đã tiêu thụ chip Trainium nhanh hơn tốc độ sản xuất của AWS.
Hiện có 1,4 triệu chip Trainium đã được triển khai trên ba thế hệ, và Claude của Anthropic chạy trên hơn 1 triệu chip Trainium 2.
Ban đầu Trainium được thiết kế để đào tạo mô hình nhanh hơn và chi phí thấp hơn, nhưng hiện nay nó cũng đã được tối ưu cho suy luận (inference). Inference – việc chạy mô hình AI để tạo ra phản hồi – hiện là nút thắt hiệu suất lớn nhất trong ngành.
“Cơ sở khách hàng của chúng tôi đang mở rộng nhanh hơn khả năng cung cấp năng lực của chúng tôi,” King nói. “Bedrock có thể sẽ lớn bằng EC2 một ngày nào đó.”
Ảnh: Amazon
Trainium vs. Nvidia
Amazon khẳng định các chip mới chạy trên Trn3 UltraServers tiêu tốn đến 50 % chi phí so với các máy chủ đám mây truyền thống để đạt hiệu năng tương đương.
Cùng với Trainium 3 (ra mắt tháng 12), đội ngũ AWS còn xây dựng công tắc Neuron mới. Các công tắc này cho phép mỗi chip Trainium 3 giao tiếp với mọi chip khác trong một cấu hình lưới (mesh), giảm độ trễ và phá kỷ lục “giá trên công suất”.
Apple đã ca ngợi đội ngũ vào năm 2024, nhấn mạnh CPU ARM Graviton tiêu thụ ít điện năng, chip tập trung vào suy luận Inferentia, và Trainium.
Rào cản truyền thống của chip là chi phí chuyển đổi – các ứng dụng viết cho GPU của Nvidia phải được tái cấu trúc để chạy trên nền tảng khác. Nhóm chip của AWS cho biết Trainium giờ đã hỗ trợ PyTorch, khiến việc di chuyển chỉ cần một dòng lệnh, biên dịch lại và chạy trên Trainium.
AWS cũng công bố quan hệ hợp tác với Cerebras Systems, tích hợp chip suy luận của Cerebras vào các máy chủ chạy Trainium để đạt hiệu năng AI siêu tốc, độ trễ thấp.
—
Hệ sinh thái phần cứng
Ngoài chip, đội ngũ còn thiết kế các máy chủ chứa chúng. Bộ đôi phần cứng‑phần mềm Nitro cung cấp ảo hoá, làm mát bằng chất lỏng và các khay máy chủ (sleds) tùy chỉnh (khay chứa chip).
Ảnh: TechCrunch / Julie Bort
“Bring‑up”
Đơn vị thiết kế chip riêng của Amazon bắt đầu khi công ty mua lại hãng thiết kế chip của Israel, Annapurna Labs, vào tháng 1 2015 với giá khoảng 350 triệu USD. Phòng thí nghiệm, nằm trong khu “The Domain” sang trọng của Austin, được đặt trong một tòa nhà kính có tầm nhìn toàn cảnh thành phố.
Không gian phòng thí nghiệm là một khu công nghiệp ồn ào, nửa xưởng, nửa công nghệ cao. Các kỹ sư làm việc trong quần jean, không phải áo blouse phòng thí nghiệm.
Ảnh: TechCrunch / Julie Bort
Silicon bring‑up là khoảnh khắc chip được bật nguồn lần đầu tiên – “bữa tiệc lớn qua đêm”. Sau 18 tháng làm việc, chip được kích hoạt để xác nhận hoạt động đúng thiết kế. Nhóm thậm chí đã đăng video YouTube về bring‑up của Trainium 3.
Phiên bản prototype của Trainium 3 ban đầu được làm mát bằng không khí; phiên bản sản xuất hiện là làm mát bằng chất lỏng, mang lại lợi thế năng lượng đáng kể. Trong buổi bring‑up, một bộ tản nhiệt không thẳng hàng buộc nhóm phải mài bỏ phần kim loại thừa – công việc được thực hiện trong phòng họp để không làm gián đoạn “bầu không khí tiệc pizza”.
Phòng thí nghiệm còn có trạm hàn nơi kỹ sư phần cứng Isaac Guevara trình diễn việc hàn các thành phần vi mạch cực nhỏ qua kính hiển vi.
Ảnh: TechCrunch / Julie Bort
Kỹ sư tín hiệu Arvind Srinivasan đã trình diễn thiết bị kiểm tra dùng để xác nhận từng thành phần siêu nhỏ trên chip.
Ảnh: TechCrunch / Julie Bort
Khay (Sleds) – ngôi sao của phòng thí nghiệm
Các bức tường trưng bày hàng loạt khay, mỗi khay chứa một thế hệ Trainium, Graviton và các bo mạch hỗ trợ khác. Các khay được xếp chồng trên giá kệ có mạng lưới tùy chỉnh, tạo thành các hệ thống cung cấp năng lực cho Claude của Anthropic.
Ảnh: TechCrunch / Julie Bort
Một khay như vậy đã xuất hiện tại hội nghị re:Invent vào tháng 12:
Ảnh: TechCrunch / Julie Bort
—
Được chứng minh bởi Anthropic và OpenAI
Số lượng chip Trainium 2 lớn nhất được triển khai trong Project Rainier, một trong những cụm tính toán AI lớn nhất thế giới (khoảng 500 000 chip, dự kiến hoạt động cuối năm 2025), do Anthropic sử dụng.
Một màn hình tường trong phòng chính hiển thị trích dẫn về việc OpenAI sẽ sử dụng Trainium trong thời gian tới, nhưng các kỹ sư vẫn đang ở giai đoạn đầu với OpenAI. Hiện tại họ tập trung vào nhu cầu của Anthropic và Amazon.
Nhóm còn vận hành trung tâm dữ liệu riêng để kiểm tra chất lượng, tách biệt hoàn toàn khỏi khối lượng công việc của khách hàng. Đó là môi trường ồn ào, đầy mùi kim loại, nơi bắt buộc phải đeo nút tai bảo vệ.
Ảnh: TechCrunch / Julie Bort
Các khay trong trung tâm dữ liệu tích hợp CPU Graviton , Train …
—
Sự chú ý của ban lãnh đạo
CEO Amazon Andy Jassy đã công khai ca ngợi công việc của phòng thí nghiệm, gọi Trainium là “một trong những công nghệ AWS mà tôi hào hứng nhất”. Ông nhấn mạnh thỏa thuận với OpenAI là một chiến thắng lớn cho AWS.
Các kỹ sư làm việc liên tục 24/7 trong nhiều tuần quanh mỗi sự kiện bring‑up để đảm bảo chip có thể sản xuất hàng loạt.
“Rất quan trọng là chúng ta phải nhanh nhất có thể chứng minh rằng nó thực sự hoạt động,” Carroll nói.
—
Tiết lộ: Amazon đã chi trả vé máy bay và một đêm ở khách sạn địa phương. Chi phí di chuyển được tối giản (ghế sau máy bay, phòng tiêu chuẩn). TechCrunch đã thanh toán các chi phí khác (Uber, phí hành lý).
Tags: AWS Chip Lab, Trainium, AI Hardware







