OpenAI vừa công bố GPT‑Image 2 một cách khiêm tốn, như dành cho những người đã biết kết quả sẽ tự nói lên mình. Không có buổi keynote. Không có vòng hype. Chỉ có một trang mô hình, phần lớn là gallery, và mô hình đạt 242 điểm trên bảng xếp hạng Image Arena, cao hơn mọi mô hình hiện có — khoảng cách lớn nhất từng được ghi nhận.
Thời điểm ra mắt cũng đầy ám chỉ. Khi chúng tôi lần cuối xem xét đỉnh cao của việc tạo ảnh AI, Nano Banana 2 của Google vừa mới giành ngôi vị vua, và chúng tôi đã so sánh nó với ByteDance’s Seedream 5 Lite trong một cuộc đấu trường bảy hạng mục. Seedream giữ vững vị thế về giá cả và độ trung thực không gian. Nano Banana 2 thắng về tốc độ và khả năng render văn bản. Rồi OpenAI xuất hiện.
GPT‑Image 2 — định danh mô hình gpt-image-2, chạy trên nền tảng GPT‑5.4 — là mô hình ảnh đầu tiên của OpenAI có khả năng suy luận bản địa được tích hợp trong kiến trúc. Trước khi vẽ bất kỳ hình nào, nó sẽ nghiên cứu, lập kế hoạch và suy luận qua cấu trúc hình ảnh.
OpenAI cũng ngừng hỗ trợ DALL‑E 3 và GPT‑Image 1.5, cả hai sẽ bị tắt vào ngày 12 tháng 5. Đây không phải là một bản cập nhật — mà là một sự thay thế.
Chúng tôi áp dụng cùng khung bảy hạng mục đã dùng trong so sánh Nano Banana vs. Seedream để xem thực sự đã thay đổi gì — và liệu nhà vô địch hiện tại của Google có thể giữ ngọn cờ chung cuộc hay không.
Những gì GPT‑Image 2 mang lại
Tính năng nổi bật nhất là văn bản. OpenAI tuyên bố độ chính xác khoảng 99 % ở mức ký tự trên các bộ chữ Latin, CJK, Hindi và Bengali. Đây là bước nhảy vọt lớn so với các mô hình trước, khi những ký tự rối, phông chữ vô nghĩa và chữ bị tràn luôn xuất hiện.
GPT‑Image 2 còn hỗ trợ độ phân giải lên tới 4K và có thể tạo tối đa tám hình ảnh mạch lạc từ một lời nhắc duy nhất, đồng thời giữ cho các ký tự và đối tượng nhất quán trong toàn bộ batch. “Tính nhất quán trong batch” này là một công cụ cơ bản mới cho các quy trình sản xuất (nhà xuất bản sách thiếu nhi, chiến dịch đa định dạng, v.v.).
Truy cập được chia thành các tầng:
- Instant Mode – nâng cấp chất lượng cốt lõi cho mọi người dùng ChatGPT, kể cả tài khoản miễn phí.
- Thinking Mode – mô hình sẽ suy luận, tìm kiếm web và tự kiểm tra trước khi tạo; chỉ dành cho người đăng ký Plus, Pro và Business.
- API – mở cho các nhà phát triển vào đầu tháng 5.
Cho đến lúc đó, truy cập trực tiếp diễn ra qua ChatGPT hoặc các proxy bên thứ ba với chi phí khoảng $0.01–$0.03 mỗi ảnh. Giá API dựa trên token của OpenAI là $8 cho mỗi triệu token đầu vào và $30 cho mỗi triệu token ảnh đầu ra—hơi rẻ hơn mức $60 cho mỗi triệu token đầu ra của Nano Banana 2 ở các mức độ phân giải tương đương.
Kiểm tra GPT‑Image 2 vs. Nano Banana 2: Ai thắng?
Realism – Bài kiểm tra kiến trúc sàn thượng
Lời nhắc: chân dung điện ảnh của một nữ kiến trúc sư 32 tuổi lúc hoàng hôn, màu áo khoác cụ thể, kính mắt, cuộn bản vẽ, ánh sáng giờ vàng, độ sâu trường ảnh 50 mm, hạt film, tỷ lệ dọc 4:5.
GPT‑Image 2 cho ra kết quả ấn tượng với bokeh thực tế, vải áo khoác trench cảm giác chạm, làn da có tàn nhang tự nhiên, và bản vẽ được cầm đúng như yêu cầu.
Nano Banana 2 tạo ra một bức chân dung đủ tốt nhưng ánh hoàng hôn hơi bão hòa, bản vẽ khác và thiếu hạt film.
Người thắng: Nano Banana 2
Art & Painting – Nhà thiên văn thời Phục Hưng
Lời nhắc: cảnh phong cách Rembrandt với ba nguồn sáng (nến, trăng, lọ phát quang sinh học), quan sát thiên văn bằng đá, các vật dụng bàn cụ thể, mèo có một bàn chân trắng, hiển thị kết cấu cọ dầu.
GPT‑Image 2 nắm bắt chính xác vật lý ánh sáng, cổ áo nhung rách, cuốn sách đầu lâu, cuốn sách viết tay, và con mèo đen có một bàn chân trắng. Kết quả trông như một bức tranh dầu thực thụ.
Nano Banana 2 tạo ra một hình ảnh đẹp nhưng mang phong cách thẻ bài fantasy cao cấp thay vì tranh dầu, mèo có hai bàn chân trắng và ánh sáng bị phơi sáng quá mức.
Người thắng: GPT‑Image 2
Illustration – Tinh thần anime trung gian
Lời nhắc: key visual anime phong cách Ufotable (Demon Slayer), shading cel với độ dày mực thay đổi, cơ thể biến thành năng lượng, da phát sáng dưới da, chín đuôi kitsune, kanji ofuda, nền hoàng hôn theo phong cách Makoto Shinkai.
Nano Banana 2 đưa ra một sản phẩm gần như hoàn hảo: độ dày mực đúng, đuôi rực rỡ, kanji rõ ràng, gradient hoàng hôn chính xác, và bố cục giống như poster sân khấu.
GPT‑Image 2 tạo ra một bản sao anime với đường viền sạch sẽ và bokeh hoa anh đào tốt, nhưng thiếu ánh sáng da kiểu Ufotable và giảm chín đuôi kitsune thành một đuôi duy nhất.
Người thắng: Nano Banana 2
Lettering & Style Understanding – Bài kiểm tra thiết kế chữ ký
Lời nhắc: thiết kế một chữ ký kiểu chữ cursive hoa mỹ cho “José Lanz” dựa trên các tài liệu lettering chuyên nghiệp.
GPT‑Image 2 tạo ra chữ ký mượt mà, có các vòng lặp thăng trầm trên giấy có kết cấu, hiệu ứng in nổi—đọc được và có thể sử dụng ngay.
Nano Banana 2 cố gắng theo phong cách hoa mỹ nhưng ra thành nét vẽ không đọc được và thậm chí sao chép watermark nguồn.
Người thắng: GPT‑Image 2
Spatial Awareness – Thành phố steampunk trên không
Lời nhắc: thành phố đồng hồ steampunk rộng lớn nhìn từ góc ba phần tư, năm mặt phẳng sâu, sương mù, sáu yếu tố văn bản có thể đọc được (bốn mặt đồng hồ với thời gian La Mã khác nhau).
Nano Banana 2 giành ưu thế nhờ hình học trên không thuyết phục, các mặt phẳng sâu rõ ràng và chi tiết kết cấu xuất sắc, dù một vài dòng chữ còn thiếu.
GPT‑Image 2 đúng sáu yếu tố văn bản và các mặt đồng hồ, nhưng các mặt phẳng trung gian bị sụp đổ và xuất hiện hiện tượng quá nét.
Người thắng: Nano Banana 2
Lettering Density – Cảnh “Kellerman’s Hardware”
Lời nhắc: ngã tư đô thị bẩn thỉn lúc 2 h sáng, mọi bề mặt đều có chữ đọc được (biển ma, graffiti bong bóng chrome, chữ hiệu cửa hàng vinyl, mã vạch poster hòa nhạc, vết rách lộ ra, mái che nổi, chữ viết tay trên bìa, chữ khắc trên lề vỉa hè, nhãn điện thoại công cộng ghi “ANSWERS TO MOCHI”).
GPT‑Image 2 gần như hoàn hảo trong việc nhớ lại các yếu tố: tất cả các đoạn văn bản được đưa vào và đọc được, bóng đổ của biển ma chính xác, ánh sáng sodium‑vapor đúng, phản chiếu ướt trên đường thật tự nhiên.
Nano Banana 2 cũng mạnh mẽ nhưng bỏ sót một số chi tiết (graffiti bong bóng không có viền, ánh sáng sodium‑vapor chung, thiếu một số đoạn chữ). Hình ảnh nhìn thoáng hơn vì ít hiện tượng quá nét.
Người thắng: GPT‑Image 2
Agentic Research – Dòng thời gian Bitcoin
Lời nhắc: timeline lịch sử Bitcoin theo phong cách trẻ em vẽ, yêu cầu độ chính xác thông tin nghiêm ngặt.
GPT‑Image 2 xử lý như một infographic, đưa ra timeline ngang gọn gàng với các ngày tháng chính xác (white‑paper 31 /10 2008, genesis block 3 /1 2009, Pizza Day 22 /5 2010, mất mát Mt. Gox 850 k BTC) và các sự kiện được phân bố đều.
Nano Banana 2 tạo ra một hình ảnh “đường cong” duyên dáng nhưng có tiêu đề “My Bitcoin Timeline” lạ lùng, phần 2020‑2024 chật chội và mật độ thông tin không đồng đều.
Kết luận: Hòa – Nano Banana 2 có thẩm mỹ hơn, nhưng GPT‑Image 2 cung cấp thông tin chi tiết hơn.
Image Editing – Cải tạo phòng khách
Lời nhắc: hiện đại hoá ảnh phòng khách (đổi sàn thành đá cẩm thạch trắng, thêm gương đồng bộ, phong cách hiện đại tổng thể).
GPT‑Image 2 giữ nguyên bố cục phòng (cửa, khóa thông minh, tranh treo tường, cây xanh, kệ) và đưa ra các thay đổi thiết kế hợp lý (ba gương dạng triptych, đèn LED halo). Tuy nhiên, việc đổi sàn không được thực hiện.
Nano Banana 2 (được gọi là Gemini) tạo ra một kết quả thực tế nhưng hỗn loạn – gương lồng gương, khung tranh không đồng nhất và góc nhìn hơi lệch.
Người thắng: GPT‑Image 2
Kết luận
GPT‑Image 2 thắng ở hầu hết các hạng mục: realism, nghệ thuật cổ điển, chữ ký calligraphy, chỉnh sửa ảnh và mật độ lettering. Nano Banana 2 thắng trong illustration anime, không gian bố cục và thiết kế thông tin có cấu trúc. Tuy nhiên, Nano Banana 2 vẫn là mô hình ổn định nhất khi xử lý các lời nhắc dài, phức tạp.
Nhìn chung, nếu bạn để ChatGPT có đủ tự do sáng tạo để tránh kích hoạt hiệu ứng “sharpening”, kết quả sẽ vừa thẩm mỹ, vừa thực tế và mạnh mẽ về văn bản. Hai mô hình đã gần như bằng nhau; chiến lược prompt thông minh có thể quyết định thắng thua cho bất kỳ mô hình nào.
AI image generation, GPT-Image, Nano Banana





](https://ainextvibe.com/wp-content/uploads/2026/01/f605fb5ce4e54fe580eae8c6ccb580c8.jpg)

