OpenAI thu nhỏ các mô hình mới nhất để đạt mục tiêu: phản hồi nhanh hơn và chi phí thấp hơn nhiều

Video OpenAI trên YouTube
OpenAI thu nhỏ các mô hình mới nhất của mình để đạt một mục tiêu khác: phản hồi nhanh hơn và chi phí thấp hơn đáng kể. Các GPT‑5.4 mini và GPT‑5.4 nano mới được thiết kế cho các nhà phát triển quan tâm hơn tới tốc độ phản hồi so với việc “vắt” từng phần trăm cuối cùng của sức mạnh suy luận.
Cả hai mô hình đã có sẵn từ hôm nay. GPT‑5.4 mini chạy nhanh gấp đôi so với phiên bản tiền nhiệm, đồng thời vẫn duy trì hiệu năng gần bằng GPT‑5.4 đầy đủ trên các tiêu chuẩn quan trọng. GPT‑5.4 nano đi xa hơn, tập trung vào những nhiệm vụ đơn giản như phân loại và trích xuất dữ liệu – nơi mà tốc độ là yếu tố quyết định nhất.
Cách tiếp cận này phù hợp với các ứng dụng mà tốc độ định hình trải nghiệm người dùng. Trợ lý lập trình, các tác nhân nền và công cụ thị giác thời gian thực đều cần phản hồi nhanh; trong những trường hợp này, một mô hình hơi nhỏ hơn thường mang lại kết quả tổng thể tốt hơn.

Hiệu năng thực tế bạn sẽ mất bao nhiêu

Khoảng cách về hiệu năng giữa các mô hình hẹp hơn so với dự đoán. GPT‑5.4 mini đạt 54,4 % trên SWE‑Bench Pro, trong khi mô hình đầy đủ đạt 57,7 %. Trên OSWorld‑Verified, mini đạt 72,1 % và phiên bản lớn hơn đạt 75 %, cho thấy chênh lệch vẫn rất gọn gàng trên nhiều nhiệm vụ.
Chi phí lại giảm mạnh hơn nhiều. GPT‑5.4 mini được định giá 0,75 USD cho mỗi triệu token đầu vào và 4,50 USD cho mỗi triệu token đầu ra, còn GPT‑5.4 nano chỉ 0,20 USD và 1,25 USD tương ứng. Cả hai mô hình đều hỗ trợ đầu vào dạng văn bản và hình ảnh, sử dụng công cụ, gọi hàm, và có cửa sổ ngữ cảnh 400 nghìn token, vì vậy mức giá thấp không đồng nghĩa với việc mất các tính năng cốt lõi.
Trong Codex, mô hình mini chỉ dùng 30 % hạn mức GPT‑5.4. Điều này cho phép các nhà phát triển chuyển các công việc lập trình hàng ngày sang mức giá rẻ hơn, đồng thời giữ lại mô hình đầy đủ cho những bài toán suy luận phức tạp hơn.

Bí mật: Ở đâu trên thế giới bất bình đẳng về tài sản và thu nhập nghiêm trọng nhất?

Khi các mô hình nhỏ hơn chịu trọng trách nặng

OpenAI cũng đang đẩy mạnh quy trình đa mô hình. Thay vì dựa vào một hệ thống duy nhất, các nhà phát triển có thể chia công việc qua các tầng, ghép một mô hình lớn hơn để lên kế hoạch và các mô hình nhỏ hơn để thực thi.
Cấu hình này phản ánh cách nhiều ứng dụng thực tế đã triển khai. Một mô hình có thể xem xét toàn bộ codebase hoặc quyết định thay đổi, trong khi mô hình khác xử lý dữ liệu hỗ trợ hoặc các bước lặp lại. Mô hình nhỏ hơn chịu những công việc dự đoán được, còn mô hình lớn hơn tập trung vào phán đoán và điều phối.

Video OpenAI trên YouTube
Phản hồi ban đầu cho thấy sự kết hợp này thực sự hiệu quả. CTO của Hebbia, Aabhas Sharma, báo cáo rằng GPT‑5.4 mini đã bằng hoặc vượt qua các mô hình cạnh tranh trên nhiều nhiệm vụ, đồng thời chi phí thấp hơn; trong một số trường hợp còn mang lại kết quả toàn diện mạnh mẽ hơn so với GPT‑5.4 đầy đủ.

Nên dùng gì và khi nào

GPT‑5.4 mini hiện đã có sẵn trên API, Codex, và ChatGPT. Người dùng Free và Go có thể truy cập qua tùy chọn Thinking, trong khi các người dùng khác sẽ thấy nó xuất hiện như một lựa chọn dự phòng khi họ đạt giới hạn của GPT‑5.4 Thinking.
Mô hình nano hiện chỉ giới hạn ở API, nhắm tới các nhóm thực hiện khối lượng công việc lớn, nơi kiểm soát chi phí là yếu tố then chốt. Cả hai mô hình đều đã hoạt động ngay hôm nay và có tài liệu đầy đủ.
Đối với các nhà phát triển xây dựng tính năng AI thời gian thực, xu hướng là rõ ràng. Các mô hình nhỏ hơn giờ đây đủ mạnh để đáp ứng phần lớn công việc hàng ngày, khiến việc cân bằng giữa tốc độ, chi phí và khả năng trở nên thực tế và hợp lý hơn bao giờ hết.