Ứng dụng chatbot AI LLM trên điện thoại.

Mô hình ChatGPT mới nhất, GPT-5.2, được phát hiện đang sử dụng dữ liệu từ Grokipedia – đối thủ cạnh tranh do AI tạo ra của Wikipedia, thuộc công ty xAI. Theo The Guardian, mô hình ngôn ngữ lớn (LLM) này đôi khi tham khảo bách khoa toàn thư trực tuyến do AI tạo ra của Elon Musk cho các chủ đề ít phổ biến, như chính trị Iran hoặc thông tin về nhà sử học người Anh Sir Richard Evans. Những lo ngại tương tự đã được các chuyên gia đưa ra từ vài năm trước, khi cảnh báo rằng việc huấn luyện AI bằng chính dữ liệu do AI tạo ra có thể làm giảm chất lượng mô hình, dẫn đến hiện tượng “suy thoái mô hình” (model collapse). Dù việc trích dẫn nguồn AI khác với việc dùng nó để huấn luyện, hành động này vẫn tiềm ẩn rủi ro cho những người dựa vào AI để nghiên cứu.

Vấn đề cốt lõi nằm ở xu hướng “ảo giác” (hallucination) của AI, tức khả năng bịa ra thông tin sai lệch. Ví dụ, Anthropic từng thử nghiệm vận hành một doanh nghiệp bằng AI ‘Claudius’ của họ – AI này đã nhiều lần “ảo giác”, thậm chí còn hứa sẽ tự tay giao đồ uống tận nơi. Ngay cả CEO Nvidia Jensen Huang vào năm 2024 cũng thừa nhận việc giải quyết vấn đề này vẫn còn “cách đó vài năm” và đòi hỏi thêm rất nhiều sức mạnh tính toán. Thực tế, nhiều người dùng mặc định tin rằng ChatGPT và các LLM khác cung cấp thông tin chính xác, và chỉ một số ít kiểm tra nguồn thực tế đằng sau câu trả lời. Do đó, việc ChatGPT lặp lại thông tin từ Grok là đáng lo ngại, đặc biệt vì Grokipedia không được con người biên tập trực tiếp. Nó hoàn toàn do AI tạo ra, và người dùng chỉ có thể đề xuất thay đổi chứ không thể viết hay chỉnh sửa bài viết một cách trực tiếp.

Bí mật: AirPods Max (USB-C) giảm giá mạnh, lựa chọn tai nghe cao cấp cho hệ sinh thái Apple

Việc một AI lấy thông tin từ một AI khác tạo ra một vòng lặp đệ quy nguy hiểm. Chúng ta có thể sớm chứng kiến cảnh các LLM trích dẫn lẫn nhau những nội dung chưa được xác minh. Điều này chẳng khác gì tin đồn lan truyền trong xã hội loài người, với nguồn gốc mơ hồ kiểu “tôi nghe nói vậy”. Nó dẫn đến hiệu ứng tâm lý “ảo tưởng sự thật” (illusory truth effect), khiến thông tin sai lệch được nhiều người chấp nhận là đúng chỉ vì được lặp đi lặp lại nhiều lần, bất chấp bằng chứng trái chiều. Lịch sử nhân loại vốn đã tràn ngập những huyền thoại và truyền thuyết được truyền miệng qua hàng thế kỷ. Tuy nhiên, với khả năng xử lý khối lượng dữ liệu khổng lồ ở tốc độ nhanh hơn con người rất nhiều, việc AI sử dụng các nguồn do AI tạo ra có nguy cơ thổi bùng sự lan truyền của những “huyền thoại kỹ thuật số” mới với mỗi truy vấn được nhập vào.

Đáng lo ngại hơn, nhiều tổ chức đang lợi dụng điểm yếu này. Đã có báo cáo về chiến thuật “đầu độc dữ liệu LLM” (LLM grooming), trong đó The Guardian tiết lộ một số mạng lưới tuyên truyền đang “sản xuất hàng loạt thông tin sai lệch để cấy vào các mô hình AI”. Điều này từng gây lo ngại tại Mỹ khi, chẳng hạn, Google Gemini vào năm 2024 được báo cáo là lặp lại quan điểm chính thống của Đảng Cộng sản Trung Quốc. Vấn đề đó dường như đã được xử lý, nhưng nếu các LLM bắt đầu trích dẫn lẫn nhau từ những nguồn AI chưa được kiểm chứng, đó sẽ là một mối nguy mới mà mọi người cần cảnh giác.

Bí mật: Cách Tự Động Hóa Quy Trình Công Việc với AI

Tags: AI hallucination, LLM data contamination, Grokipedia