Người dùng hiện nay thường xuyên sử dụng chatbot AI thay thế cho công cụ tìm kiếm nhằm tìm kiếm thông tin sức khỏe hàng ngày. Thói quen này tiềm ẩn nhiều rủi ro hơn sau khi một nghiên cứu mới chỉ ra rằng: một nửa số câu trả lời từ năm chatbot lớn đều có vấn đề, dù cho các phản hồi nghe có vẻ trôi chảy và đầy tự tin.
Các nhà nghiên cứu đã kiểm tra ChatGPT, Gemini, Grok, Meta AI và DeepSeek thông qua 250 câu lệnh (prompt) xoay quanh các chủ đề: ung thư, vắc-xin, tế bào gốc, dinh dưỡng và hiệu suất thể thao.
Những câu lệnh này mô phỏng các thắc mắc về sức khỏe phổ biến cũng như những chủ đề sai lệch thường gặp, nhằm đo lường xem các bot có bám sát bằng chứng khoa học hay lại sa đà vào những lời khuyên gây hiểu lầm và tiềm ẩn nguy cơ mất an toàn.
Câu hỏi mở bộc lộ lỗ hổng lớn nhất
Kết quả kém nhất đến từ các câu hỏi mở. Những truy vấn mang tính bao quát này tạo ra tỷ lệ câu trả lời sai lệch cao hơn dự kiến, trong khi các câu hỏi đóng (dạng có sẵn đáp án) lại có xu hướng nhận được phản hồi an toàn hơn.
Ảnh: Unsplash
Điều này rất quan trọng vì trên thực tế, người dùng hiếm khi đặt câu hỏi y khoa dưới dạng trắc nghiệm ngắn gọn. Họ thường hỏi xem một phương pháp điều trị có hiệu quả không, vắc-xin có an toàn hay không, hoặc làm thế nào để cải thiện thành tích thể thao.
Trong nghiên cứu, chính những loại câu hỏi này đã đẩy các bot vào tình trạng đưa ra câu trả lời pha trộn giữa bằng chứng xác đáng và những khẳng định thiếu căn cứ hoặc gây hiểu nhầm.
Tự tin thái quá, nguồn tham khảo yếu kém
Sai sót không chỉ dừng lại ở nội dung trả lời. Chất lượng nguồn tham khảo cũng rất thấp, với điểm trung bình chỉ đạt 40%, và không có chatbot nào cung cấp được danh sách trích dẫn hoàn toàn chính xác. Điều này làm suy giảm một trong những lý do chính khiến người dùng tin tưởng vào phản hồi của chatbot. Một câu trả lời có thể trông rất chuyên nghiệp và đáng tin cậy nhờ các trích dẫn, nhưng sẽ sụp đổ ngay khi kiểm tra kỹ nguồn gốc thông tin.
Ảnh: Unsplash
Các nhà nghiên cứu cũng ghi nhận nhiều trường hợp chatbot bịa đặt nguồn tham khảo, trong khi vẫn trả lời với giọng điệu chắc chắn và hầu như không đưa ra bất kỳ cảnh báo nào.
Vì sao vấn đề này quan trọng hơn một bài kiểm tra đơn lẻ
Kết quả nghiên cứu vẫn có những giới hạn nhất định. Nghiên cứu chỉ bao gồm năm chatbot – những sản phẩm thay đổi rất nhanh – và các câu lệnh được thiết kế để “thử thách” mô hình, điều này có thể làm tăng tần suất trả lời sai so với việc sử dụng thông thường.
Tuy nhiên, bài học rút ra là không thể bỏ qua. Các hệ thống này đã được kiểm tra trên những chủ đề y tế dựa trên bằng chứng khoa học, vậy mà một nửa số câu trả lời vẫn rơi vào vùng sai lệch hoặc thiếu sót.
Điểm mấu chốt – Hiện tại, chatbot có thể hỗ trợ tóm tắt thông tin hoặc gợi ý các hướng tìm kiếm tiếp theo, nhưng chúng vẫn chưa đủ đáng tin cậy để dùng làm cơ sở cho các quyết định y tế quan trọng.
Tags: AI Health Risks, Chatbot Reliability, Medical Information






