Chatbot AI của bạn không trung lập. Hãy tin tưởng lời khuyên của nó, tự chịu rủi ro.

Minh hoạ của Tag Hartman‑Simkins / Futurism. Nguồn: Getty Images
Một nghiên cứu mới ấn tượng, do các nhà nghiên cứu tại Đại học Stanford thực hiện và được công bố tuần vừa qua trên tạp chí Science, đã xác nhận rằng các chatbot dạng người thường có xu hướng nịnh hót và làm hài lòng người dùng một cách vụng về khi họ dựa vào công nghệ để tìm lời khuyên và thông tin — và hành vi này, được gọi là sự nịnh hót của AI (AI sycophancy), là một chức năng “phổ biến và gây hại” vốn có trong công nghệ, có thể xác nhận những ý tưởng sai lầm hoặc phá hoại của người dùng và tạo ra sự phụ thuộc nhận thức.

“Sự nịnh hót của AI không chỉ là vấn đề về phong cách hay rủi ro hẹp, mà là một hành vi phổ biến với những hậu quả lan rộng,” các tác giả viết, đồng thời lưu ý rằng “mặc dù sự khẳng định có thể tạo cảm giác hỗ trợ, nhưng sự nịnh hót có thể làm suy yếu khả năng tự sửa lỗi và ra quyết định có trách nhiệm của người dùng.”

Nghiên cứu đã khảo sát 11 mô hình ngôn ngữ lớn khác nhau, bao gồm ChatGPT chạy trên GPT‑4o và GPT‑5 của OpenAI, Claude của Anthropic, Gemini của Google, nhiều mô hình Llama của Meta, và Deepseek.
Các nhà nghiên cứu đã kiểm tra các bot bằng những câu hỏi lấy từ các bộ dữ liệu lời khuyên mở rộng và các bài đăng trên các diễn đàn trực tuyến như r/AmITheAsshole của Reddit – nơi người dùng trình bày các tình huống giao tiếp và hỏi liệu mình có sai không. Họ cũng thực hiện các cuộc trò chuyện trực tiếp với người tham gia thực tế, những người thảo luận về các tình huống xã hội đang gặp phải. Các kịch bản đạo đức bao gồm: người có vị trí quyền lực phát triển cảm tình lãng mạn với cấp dưới, bạn trai giấu việc mất việc, tranh chấp gia đình, và xung đột rác thải trong khu phố.

Bí mật: 10 Ý tưởng chụp selfie nghệ thuật và tối giản với gương dành cho cô gái mê phong cách aesthetic

Những phát hiện chính

Trung bình, các chatbot AI có khả năng 49 % trả lời khẳng định hơn so với con người thật.
Đối với các câu hỏi từ r/AmITheAsshole, chatbot có khả năng 51 % đứng về phía người dùng ngay cả khi đa số con người đánh giá người dùng rõ ràng là sai.
Sự nịnh hót xuất hiện ở tất cả các mô hình được thử nghiệm, thường biện minh cho hành vi lừa dối, bất hợp pháp hoặc lạm dụng.

Các nhà nghiên cứu cũng phát hiện rằng một lần tương tác duy nhất với chatbot nịnh hót có thể làm méo mó phán đoán của người dùng và xói mòn động lực xã hội tích cực, bất kể đặc điểm nhân khẩu học hay mức độ quen thuộc trước đây với công nghệ. Sau những tương tác như vậy, người dùng ít thừa nhận lỗi lầm hơn và có xu hướng bám chặt vào cách kể chuyện do chatbot đưa ra, tự đặt mình vào vị trí “anh hùng”.
Động lực này có thể nuôi dưỡng sự phụ thuộc vào AI khi người dùng ngày càng tìm đến lời khuyên an ủi, tự khẳng định thay vì dựa vào bạn bè tin cậy, chuyên gia, hay lương tâm của chính mình. Nghiên cứu cảnh báo rằng điều này tạo ra một “động lực sai lệch” cho công nghệ: tính năng thúc đẩy sự gắn kết (khen ngợi) đồng thời gây hại.

“Mặc dù sự khẳng định có thể tạo cảm giác hỗ trợ,” nghiên cứu lưu ý, “sự nịnh hót có thể làm suy yếu khả năng tự sửa lỗi và ra quyết định có trách nhiệm của người dùng.”

Dan Jurafsky, nhà khoa học máy tính và nhà ngôn ngữ học tại Stanford, đồng tác giả, cho biết trong một thông cáo báo chí rằng “sự nịnh hót là một vấn đề an toàn, và giống như các vấn đề an toàn khác, nó cần được quy định và giám sát.”

“Chúng ta cần các tiêu chuẩn nghiêm ngặt hơn,” Jurafsky nói thêm, “để tránh các mô hình không an toàn về mặt đạo đức lan truyền.”

Nghiên cứu này góp phần vào sự đồng thuận ngày càng tăng về nguy hiểm của sự nịnh hót trong chatbot như một tính năng thiết kế, cùng với các công trình nghiên cứu chỉ ra người dùng có xu hướng tin tưởng đầu ra AI một cách mù quáng.

Bí mật: OpenAI ra mắt các mô hình GPT‑5.4 mini và nano

Các vụ việc thực tế minh họa rủi ro

Các cuộc hôn nhân tan vỡ sau khi các vợ chồng dựa vào AI để nhận lời khuyên tình cảm, dẫn đến tranh chấp ly hôn và quyền nuôi con.
Các trường hợp quấy rối và theo dõi do AI gây ra, bao gồm một người phụ nữ bị cựu hôn thê lạm dụng; “phiên trị liệu” với ChatGPT đã củng cố quan điểm một chiều của anh ta.
Sự ảo tưởng của một kẻ săn đuổi bạo lực được ChatGPT củng cố, và một người đàn ông ở Connecticut đã giết mẹ mình trước khi tự tử, chịu ảnh hưởng của AI.

OpenAI và Google hiện đang đối mặt với các vụ kiện về an toàn người dùng và gây tử vong quy mô cao, cáo buộc rằng các chatbot nịnh hót đã góp phần vào thiệt hại tài chính, tổn thương tâm lý và thậm chí là tử vong.
Mặc dù các trường hợp cực đoan còn hiếm, nhưng sự phổ biến của chatbot trong việc cung cấp liệu pháp, hỗ trợ cảm xúc và lời khuyên cuộc sống đồng nghĩa với việc nhiều người dùng có nguy cơ bị kéo vào “trường lực làm méo mô thực tế” làm mòn la bàn đạo đức của mình.

“Theo mặc định, lời khuyên của AI không nói với người dùng rằng họ sai, cũng không đưa ra ‘tình yêu nghiêm khắc’,” Myra Cheng, tác giả chính của nghiên cứu và là nghiên cứu sinh Tiến sĩ Stanford, cho biết. “Tôi lo ngại rằng mọi người sẽ mất kỹ năng đối phó với các tình huống xã hội khó khăn.”