Trình tạo ảnh mới của ChatGPT so với “Nano Banana” của Gemini ra sao?

Nguồn: OpenAI

Hãy chuẩn bị cho màn so tài của thế hệ công cụ chỉnh sửa ảnh AI tiếp theo.

Sau khi Google Gemini được nâng cấp mạnh về khả năng chỉnh sửa ảnh AI hồi tháng 8—với mật danh vui nhộn là Nano Banana—thì đến lượt OpenAI bổ sung sức mạnh cho các công cụ xử lý hình ảnh ngay trong ChatGPT. Bản cập nhật mới có tên GPT Image 1.5 và hiện đang được phát hành cho tất cả người dùng.

Một trong những cải tiến quan trọng lần này—tương tự như Nano Banana—là khả năng để ChatGPT chỉnh sửa một khu vực cụ thể trong ảnh, trong khi các phần còn lại vẫn giữ được sự đồng bộ (bố cục, chi tiết, ánh sáng…). Bạn có thể thêm hoặc xoá một chi tiết, hoặc đổi màu/đổi phong cách của một vật thể, mà không làm cả bức ảnh “đổi thành” một ảnh khác hoàn toàn.

ChatGPT cũng có thêm một tính năng giống Gemini: kết hợp nhiều ảnh vào cùng một bối cảnh. Muốn bạn và người bạn thân đứng trước Cầu Cảng Sydney (Sydney Harbour Bridge)? Không thành vấn đề—chỉ cần đưa ảnh nguồn, hệ thống sẽ xử lý phần còn lại. Bạn cũng có thể thay đổi phong cách hình ảnh mà vẫn giữ được sự nhất quán về chi tiết.

OpenAI cho biết trình chỉnh sửa và tạo ảnh mới có thể làm theo hướng dẫn “đáng tin cậy hơn”, đồng thời tạo ảnh nhanh hơn tới bốn lần so với trước. Văn bản trong ảnh có thể đa dạng hơn về kiểu chữ và kích cỡ; hình ảnh nhìn chung được kỳ vọng sẽ chân thực hơn và ít lỗi hơn—dù OpenAI cũng thừa nhận vẫn còn nhiều điểm có thể cải thiện.

Đây là công cụ tạo ảnh tốt nhất mà chúng tôi từng thấy trong ChatGPT, và thoạt nhìn mọi thứ đều rất ấn tượng—nhưng khi dùng thực tế thì so với Gemini và Nano Banana ra sao? Tôi đã thử nghiệm trực tiếp cả hai bằng gói 20 USD/tháng trên mỗi nền tảng (lần lượt là ChatGPT Plus và Google AI Pro) để xem chúng khác nhau thế nào.

Bí mật: OpenAI sa thải giám đốc an toàn cấp cao sau khi cô phản đối việc cho phép nội dung người lớn và nội dung tình dục trong ChatGPT, tờ Wall Street Journal đưa tin

Tạo ảnh và chỉnh sửa ảnh

Mở ChatGPT trên web hoặc điện thoại, bạn sẽ thấy một tab mới tên Images ở thanh điều hướng bên trái. Tab này đưa bạn tới thư viện ảnh đã tạo trước đó, đồng thời gợi ý một số lời nhắc mới để tạo ảnh. Bạn sẽ nhận được gợi ý cách viết lời nhắc, cùng một loạt phong cách chân dung cài sẵn để áp dụng.

Một nhà báo, một chiếc đèn và cảnh nông thôn do Gemini tạo. Nguồn: Gemini

Một nhà báo, một chiếc đèn và cảnh nông thôn do ChatGPT tạo. Nguồn: ChatGPT

Tôi thử nghiệm GPT Image 1.5 bằng cách yêu cầu ChatGPT tạo ba ảnh riêng: (1) một nhà báo công nghệ bận rộn; (2) một chiếc đèn đặt giữa một nhà kho trống; và (3) một phong cảnh đồi trập trùng theo phong cách hoạt hình trong sương. Sau đó tôi yêu cầu Gemini tạo đúng các ảnh tương tự với cùng lời nhắc. Kết quả khá đa dạng, nhưng xét về chất lượng và độ chân thực thì hai bên khá ngang ngửa nhau—thỉnh thoảng vẫn có những chi tiết “phi lý” về mặt hình khối/ánh sáng, hoặc vài chi tiết bị lặp, nhưng nhìn chung không quá nghiêm trọng.

Cả ChatGPT lẫn Gemini giờ đều chỉnh sửa ảnh rất gọn: cả hai có thể đổi trang phục của nhà báo sang áo sơ mi và cà vạt khá mượt, mà không làm ảnh hưởng các phần khác của bức hình. Ngay cả chuyên gia Photoshop cũng sẽ mất khá nhiều thời gian để làm thủ công—điều này cho thấy chỉnh sửa ảnh bằng AI đang nhanh chóng trở thành một bước ngoặt lớn.

Các yêu cầu đổi màu được xử lý rất ổn, nhưng cả hai AI hơi vất vả khi tôi đề nghị đổi góc máy (tức xem cùng cảnh đó từ một góc nhìn khác). Trong những trường hợp như vậy, kết quả thường bám sát mô tả kém hơn và cũng kém nhất quán hơn (vì mô hình phải “tạo mới” thêm các vùng hình ảnh). Dù vậy, ChatGPT nhỉnh hơn Gemini một chút về khả năng cho ra kết quả trông đẹp và hợp lý hơn.

Bí mật: Góc Máy Hoàn Hảo với Gemini AI Cho Ảnh Chụp Người Mẫu: Tư Thế Đỉnh Cao, Thẩm Mỹ Hút Mắt, Sáng Tạo Chuẩn Studio

Giờ bạn có thể đổi trang phục chỉ trong vài giây (bản Gemini). Nguồn: Gemini

Giờ bạn có thể đổi trang phục chỉ trong vài giây (bản ChatGPT). Nguồn: ChatGPT

Thử thách kinh điển kiểu “xoá một vật thể khỏi bức ảnh này” cũng được xử lý rất tốt: cả Gemini và ChatGPT đều có thể xoá căn nhà nhỏ (cottage) khỏi cảnh nông thôn với độ chính xác gần như “phẫu thuật”, trong khi mọi thứ khác vẫn giữ nguyên. Một lần nữa, đây là kiểu chỉnh sửa trước kia vốn tốn rất nhiều công sức và thời gian, còn nay có thể hoàn thành trong vài giây.

Gemini thử xoá căn nhà nhỏ. Nguồn: Gemini

ChatGPT thử xoá căn nhà nhỏ. Nguồn: ChatGPT

Ghép ảnh và “remix” ảnh

Một khả năng khác mà ChatGPT và Gemini hiện có là ghép ảnh lại với nhau. Bạn có thể lấy những tấm ảnh riêng của bạn và bố mẹ, đặt vào cùng một khung hình, rồi thêm nền là bất cứ nơi đâu bạn muốn. Nói cách khác, bạn có thể có một bức ảnh gia đình “hoàn hảo” mà không cần tập hợp người thân hay phải đi đâu cả.

Đây là mảng mà cả Gemini lẫn ChatGPT lại gặp khó hơn đôi chút: thao tác vẫn rất ấn tượng, nhưng kết quả không phải lúc nào cũng trông như một cảnh thống nhất, liền mạch. Ánh sáng đôi khi bị lệch, hoặc các yếu tố từ những ảnh khác nhau có kích thước/tỷ lệ không đồng đều; bạn sẽ phải chỉnh thêm, thử lại, và viết lại lời nhắc vài lần để mọi thứ khớp nhau.

ChatGPT thể hiện nhỉnh hơn một chút khi hoà trộn nhiều ảnh và chi tiết khác nhau, cũng như khi thay đổi “tông” tổng thể của bức hình. Khi tôi yêu cầu các AI trộn toàn bộ ảnh của mình thành một khung hình theo phong cách film noir u ám, ChatGPT cho ra kết quả khá nhất quán—còn phiên bản của Gemini trông giống như ảnh bị cắt dán hơn.

Bí mật: Sự ra mắt phần cứng đầu tiên của OpenAI có thể là một loa ChatGPT tích hợp camera

Việc remix ảnh lặp đi lặp lại có thể rất thú vị—thêm người mới, đổi thời tiết, chuyển địa điểm—và cả hai bot giờ đều có thể tạo ra những kết quả khá ấn tượng. Remix ảnh gia đình, bạn bè chắc chắn sẽ phổ biến, nhưng không hẳn dễ: với những người bạn quen, các chi tiết mà AI “bù thêm” thường dễ trông không đúng, bởi cả ChatGPT lẫn Gemini không biết chính xác họ trông ra sao, họ cười thế nào, dáng người thế nào, hay họ thường đứng/ngồi với tư thế ra sao.

Gemini có thể ghép ảnh—nhưng đôi khi trông như nhiều ảnh khác nhau chắp lại. Nguồn: Gemini

ChatGPT làm tốt hơn trong việc tạo ra một ảnh mới trông “đúng” và liền mạch. Nguồn: ChatGPT

Xét tổng thể khi so sánh ChatGPT và Gemini, cả hai hiện đã đạt trình độ rất cao—đủ để đưa các năng lực chỉnh sửa kiểu Photoshop nâng cao đến “trong tầm tay” mọi người. Nếu phải chọn bên đang có lợi thế ở thời điểm này, ChatGPT nhỉnh hơn, nhưng khoảng cách không lớn. Và sẽ rất thú vị để xem các khả năng chỉnh sửa ảnh này còn tiến xa đến đâu trong thời gian tới.

Tags: AI image editing, ChatGPT Images, Google Gemini
Tags: AI image editing, ChatGPT Images, Google Gemini