Z.ai ra mắt GLM‑5.2

Z.ai đã ra mắt GLM‑5.2 vào ngày 16/6, hứa hẹn mang lại hiệu năng đỉnh cao, vượt qua phiên bản hiện hành GLM 5.1.

Nhà thí nghiệm đặt tại Bắc Kinh, đã được đưa vào danh sách U.S. Entity List từ tháng 1/2025, dường như đang tận dụng những lo ngại ngày càng tăng của Mỹ đối với AI. Trong tuần qua, lệnh cấm Anthropic Fable cùng với việc công bố mô hình mới đã khiến cổ phiếu Z.ai tăng 90 %, đạt mức cao nhất trong lịch sử.

GLM‑5.2 có các chỉ số thực sự ấn tượng.

Trong FrontierSWE — bộ chuẩn đo lường khả năng của AI agent thực hiện các dự án kỹ thuật quy mô lớn (tối ưu hệ thống, viết mã quy mô lớn, nghiên cứu ML thực tiễn) — điểm được tính bằng tỷ lệ thống trị, GLM‑5.2 đạt 74.4, chỉ kém Claude Opus 4.8 (75.1) và vượt qua GPT‑5.5 (72.6). Trên SWE‑bench Pro, thước đo khả năng tự động giải quyết các issue thực tế trên GitHub và tính bằng tỷ lệ thành công, GLM‑5.2 ghi 62.1, trong khi GPT‑5.5 chỉ 58.6 — cao hơn đáng kể so với tiền nhiệm GLM‑5.1 (58.4).

Những bước nhảy vọt về chất lượng này đã khiến GLM‑5.2 trở thành mô hình nguồn mở có điểm số cao nhất hiện tại trong Artificial Analysis Intelligence Index — bảng xếp hạng tổng hợp dựa trên chín tiêu chí đánh giá chất lượng tổng thể của mô hình AI. Các kết quả của OpenRouter còn xếp nó cùng nhóm với Claude Fable 5, mô hình hiện đang bị cấm.

Phần cứng dùng để đạt thành tựu này cũng đáng chú ý. GLM‑5.2 được huấn luyện trên chip Huawei Ascend, không sử dụng bất kỳ chip nào của Nvidia. Emad Mostaque, người sáng lập Stability AI, ước tính tổng chi phí huấn luyện khoảng 25 triệu USD, trong đó 80 % là chi phí giai đoạn hậu‑huấn luyện, khiến chi phí này rẻ hơn rất nhiều so với các đối thủ.

Bí mật: Lộ trình phát triển toàn diện cho AI Product Manager

Theo Decrypt đã báo cáo đầu năm, Z.ai đã từng huấn luyện các mô hình tạo ảnh trên các máy chủ Huawei Ascend Atlas mà không dùng chip Mỹ nào. GLM‑5.2 mở rộng quy mô hạ tầng đó — mô hình 744 tỷ tham số dạng mixture‑of‑experts với cửa sổ ngữ cảnh 1 triệu token, gấp năm lần giới hạn 200 K token của GLM‑5.1, và được cấp phép MIT, có nghĩa là không có lệnh nào của chính phủ có thể ngăn chặn quyền truy cập.

Token là các đoạn văn bản mà mô hình có thể đọc và sinh ra, trong khi tham số là các thiết lập nội bộ quyết định cách mô hình xử lý thông tin và tạo phản hồi.

Đối tượng sử dụng và chi phí

Đối với các nhà phát triển, cửa sổ ngữ cảnh lớn là điểm thay đổi quan trọng. Khi cần duyệt toàn bộ repo, refactor đa tệp và các pipeline dài, trước đây phải chia nhỏ dữ liệu; giờ có thể thực hiện trong một lệnh duy nhất. Giá API được tính 1,40 USD cho mỗi triệu token đầu vào và 4,40 USD cho mỗi triệu token đầu ra — so với Claude Opus 4.8 với mức 5 USD đầu vào và 25 USD đầu ra. Gói Coding Plan bắt đầu khoảng 18 USD mỗi tháng và hoạt động trực tiếp trên Claude Code, Cline, Kilo Code và hầu hết các môi trường agentic phổ biến.

Bí mật: Vì sao những nhà lãnh đạo xuất sắc nhất đang thay đổi cách cuộc chơi vận hành trong năm 2026

Triển khai nội bộ cũng hoàn toàn khả thi. Unsloth AI đã đưa ra các bản quantization GGUF 2‑bit, nén mô hình từ 1,51 TB xuống còn 238 GB mà vẫn giữ được khoảng 82 % độ chính xác.

Tuy nhiên, vẫn cần 256 GB bộ nhớ thống nhất (unified memory) hoặc cấu hình RAM/VRAM tương đương — ví dụ một Mac Studio M4 Ultra đã nâng cấp tối đa, hoặc một workstation trung bình với GPU kèm 256 GB RAM hệ thống và cơ chế offloading mixture‑of‑experts. Chi phí vẫn không hề nhỏ, nhưng ít nhất bạn có thể mua và chạy tại nhà nếu thực sự muốn.

Chúng tôi đã thực hiện một bài kiểm tra nhanh, yêu cầu GLM‑5.2 xây dựng một trò chơi tiêu chuẩn kết hợp cơ chế nhập liệu và bắn súng. Giao diện không rực rỡ lắm — các mô hình khác tạo UI mịn hơn — nhưng trải nghiệm đa dạng: các kịch bản sóng khác nhau, loại kẻ thù thay đổi, trùm xuất hiện muộn hơn trong lượt chơi. Mô hình này tạo ra nhiều trạng thái trò chơi phong phú hơn bất kỳ mô hình nào khác chúng tôi thử trong cùng nhiệm vụ zero‑shot.

Nếu muốn trải nghiệm, mô hình đã có sẵn trên hồ sơ Itch.io của chúng tôi.

Sự đa dạng này cho thấy GLM‑5.2 thực sự hợp lý về mặt kinh tế trong các workflow tạo nội dung đa shot và các pipeline agentic, nơi đa dạng kết quả quan trọng hơn độ tinh tế. Khi tính theo mức giá nguồn mở, lợi thế kinh tế rất khó tranh cãi. Đối với những nhiệm vụ đòi hỏi sức bền cao — như SWE‑Marathon, nơi GLM‑5.2 chỉ đạt 13.0 trong khi Opus 4.8 đạt 26.0 — khoảng cách tới các mô hình đóng vẫn còn lớn, chênh lệch tới 13 điểm.

Bí mật: Bộ sạc Apple Watch cũng có thể sạc AirPods

Trọng số nguồn mở đã có trên HuggingFace dưới giấy phép MIT. Các trọng số đã được quantize cũng có sẵn trên HuggingFace. Người đăng ký GLM Coding Plan có thể chuyển ngay bằng chuỗi mô hình GLM‑5.2, đồng thời mô hình này còn có thể thử miễn phí trên Z.ai với một số hạn chế về mức sử dụng.

AI,GLM-5.2,Machine Learning