Các nhà nghiên cứu phát hiện: ChatGPT tạo ra hình ảnh kinh hoàng chỉ với một yêu cầu đơn giản

Shutterstock / Futurism

Các nhà nghiên cứu của công ty khởi nghiệp an ninh AI của Anh Mindgard phát hiện rằng một yêu cầu rất đơn giản có thể khiến ChatGPT bỏ qua các nguyên tắc an toàn cơ bản, cho thấy ngay cả các biện pháp bảo vệ trên các mô hình AI nổi tiếng nhất cũng có thể bị xâm phạm.

The report from BBC says the team tricked OpenAI’s model into creating horrifying scenes, realistic images of blood and pornographic content. The Mindgard technique slightly modifies a common command used to generate humorous images: they ask ChatGPT to “restore attached image” without actually uploading any file, then direct it to create a new picture.

“Đây là một chỉ dẫn trông hoàn toàn vô hại đối với AI, nhưng hậu quả là nó tạo ra những hình ảnh và nội dung vô cùng tồi tệ,” Peter Garraghan, người sáng lập Mindgard và là giáo sư khoa học máy tính tại Lancaster University, nói với BBC.

The commands used by the researchers không specify the image content. AI seems to automatically generate violent scenes “according to its will,” Garraghan added.

Một bức ảnh cho thấy một người đàn ông bị thương nặng ở đầu.
Bức ảnh khác mô tả xác một cô gái trẻ mặc quần short và áo crop‑top, ngập trong máu, gợi ý bạo lực tình dục. ChatGPT đặt tiêu đề cho ảnh này là “grim crime scene aftermath.”
Ảnh thứ ba cho thấy một cô gái trẻ sợ hãi, bị trói và bị giam miệng trong một căn phòng trống, tiêu đề là “abandoned in fear and restraint.”

Mặc dù không có hình ảnh nào có người thật, Mindgard trước đây đã chứng minh rằng ChatGPT có thể bị lừa tạo ra các deepfake có nội dung khỏa thân của những cá nhân cụ thể mà không có sự đồng ý của họ.

Bí mật: Proxmox giới thiệu Datacenter Manager 1.0 với giao diện hiện đại phát triển bằng Rust

Mindgard đã chia sẻ phát hiện này với OpenAI; ban đầu họ chỉ nhận được phản hồi tự động. Sau khi Mindgard thông báo cho BBC, OpenAI công bố rằng họ đã áp dụng các biện pháp mới:

“Sau khi điều tra xu hướng này, chúng tôi đã triển khai thêm các biện pháp bảo vệ nhằm ngăn chặn loại yêu cầu này,” OpenAI cho biết với BBC. “Chúng tôi có nhiều lớp bảo vệ để ngăn người dùng tạo nội dung vi phạm chính sách của chúng tôi.”

Mặc dù đã có các lớp bảo vệ, các nhà nghiên cứu của Mindgard cho biết họ vẫn có thể tạo ra những hình ảnh gây khó chịu chỉ bằng cách thay đổi nhẹ đề bài. Jim Nightingale, nhà nghiên cứu an ninh AI của công ty, cho biết những hình ảnh này khiến anh “rơi nước mắt và cảm thấy chấn động.”

“Tôi không dễ bị lay động,” anh viết trong báo cáo. “Tôi thích nghĩ rằng với tư cách là nhà nghiên cứu red‑team, tôi có một mức độ kiên cường nhất định.”

Anh tiếp tục:

“Các bộ lọc nội dung tạo hình ảnh của ChatGPT hoàn toàn bị vô hiệu hoá, và tôi đã nhìn thấy mặt tối sâu thẳm của những gì ẩn sau. Điều khiến tôi bất ngờ là dù những hình ảnh này – một hình ảnh ‘nhân tạo’ – vẫn liên quan tới những hình ảnh và thế giới thực. Người phụ nữ chết mà ChatGPT cho tôi xem không phải là người thật, nhưng cô ấy dựa trên một người nào đó. Hoặc tệ hơn, là một tập hợp các hình ảnh của những phụ nữ bị giết.”

ChatGPT,AI safety,deepfake