OpenAI ra mắt Images 2.0 – Mô hình tạo ảnh biết "tư duy" với khả năng tra cứu web, xuất nhiều kết quả cùng lúc và hỗ trợ văn bản ngoài hệ chữ Latinh

Hình ảnh minh họa do mô hình Images 2.0 của OpenAI tạo ra
Thứ Ba tuần này, OpenAI đã nâng cấp mô hình tạo ảnh tích hợp trong ChatGPT, mang đến ba tính năng đột phá: tra cứu thông tin trực tiếp trên web, tạo nhiều phiên bản cùng một lúc và hỗ trợ hiển thị văn bản sử dụng các hệ chữ không phải Latinh. Đặc biệt, Images 2.0 là mô hình tạo ảnh đầu tiên của ChatGPT được trang bị khả năng “tư duy” (thinking) để tự suy luận trước khi thực thi.
Đây là thế hệ thứ ba trong dòng sản phẩm tạo ảnh của công ty, kế thừa từ Images (ra mắt tháng 3 năm ngoái) và Images 1.5 (tháng 12). OpenAI nhận định Images 2.0 là một “bước nhảy vọt” so với các phiên bản tiền nhiệm nhờ khả năng tuân thủ chỉ dẫn chính xác hơn, bố cục đối tượng hợp lý, hiển thị văn bản rõ ràng và xử lý linh hoạt các tỉ lệ khung hình.
Hiện tại, Images 2.0 đã mở rộng cho tất cả người dùng ChatGPT và Codex. Tuy nhiên, các tính năng nâng cao thuộc chế độ thinking vẫn chỉ dành riêng cho gói ChatGPT Plus, Pro và Business. Qua trải nghiệm sơ bộ, mô hình mới này hoàn toàn không làm tôi thất vọng.

Mẫu poster phim do OpenAI tạo
Khi kích hoạt chế độ thinking hoặc chọn mô hình pro, hệ thống có thể tra cứu thông tin trên web trước khi đưa ra kết quả cuối cùng. Dữ liệu kiến thức của mô hình hiện được cập nhật đến tháng 12 năm 2025.
Khả năng “tư duy” còn cho phép mô hình tạo ra một chuỗi ảnh từ một câu lệnh duy nhất. Ví dụ, nếu bạn yêu cầu ChatGPT vẽ nhiều trang truyện tranh, nó sẽ đảm bảo tính nhất quán về nhân vật, phông chữ, bảng màu và cảm xúc xuyên suốt các trang.

Trang truyện tranh do Images 2.0 tạo ra (hỗ trợ tạo tới tám trang trong một lần).
Bạn có thể tạo tối đa tám trang cùng lúc. Tính năng này đặc biệt hữu ích cho các đội ngũ truyền thông xã hội khi cần sản xuất đồng bộ các ấn phẩm ở nhiều tỉ lệ khung hình khác nhau chỉ trong một lượt yêu cầu.
Một ưu điểm vượt trội khác là hỗ trợ văn bản ngoài hệ chữ Latinh. Giờ đây, bạn có thể yêu cầu ChatGPT thiết kế poster, tờ rơi hoặc tài liệu hướng dẫn bằng các ngôn ngữ như tiếng Nhật, Hàn, Trung, Hindi, Bengali và nhiều ngôn ngữ khác.
Trong một ví dụ minh họa của OpenAI, bìa sách được in hoàn toàn bằng tiếng Gujarati (một ngôn ngữ tại Ấn Độ). Khi tôi thử nghiệm yêu cầu Images 2.0 tạo một tập hướng dẫn bằng ngôn ngữ này, kết quả thu được có văn bản sắc nét, ngữ pháp chuẩn xác và cách diễn đạt tự nhiên, khác biệt hoàn toàn so với các phiên bản trước đó.
Một cải tiến đáng chú ý nữa là tính chân thực của hình ảnh. Images 2.0 có thể tạo ra những nhân vật giống người thật với tông da, đường nét khuôn mặt và phong cách thời trang chính xác, đồng thời phối cảnh nền phù hợp với bối cảnh lịch sử được mô tả trong câu lệnh. Tôi đã thử yêu cầu tạo hình ảnh một người đàn ông đang thưởng thức bánh mì kẹp tại một nhà hàng McDonald’s đông đúc vào thập niên 1990, và đây là kết quả:

Mô hình còn nhiều trường hợp ứng dụng thú vị khác; độc giả có thể xem chi tiết trong bài đăng trên blog của OpenAI. Images 2.0 đang cạnh tranh trực tiếp với Nano Banana Pro và Nano Banana 2 của Google. Trong lần so sánh gần nhất giữa các công cụ tạo ảnh hàng đầu của hai ông lớn này, Nano Banana Pro đã giành chiến thắng.
Lưu ý: Ziff Davis, công ty mẹ của PCMag, đã khởi kiện OpenAI vào tháng 4 năm 2025, cáo buộc công ty này vi phạm bản quyền của Ziff Davis trong quá trình huấn luyện và vận hành các hệ thống AI.