OpenAI’s “Goblin” Quirk Explained – How a “Nerdy” Personality Prompt Led ChatGPT to Sprinkle Fantasy Creatures Into Its Answers

Open AI CEO Sam Altman in San Francisco in 2025. (Justin Sullivan / Getty Images)

Nhà phát triển ChatGPT đã giải thích mọi thắc mắc về goblin.

Trong vài tuần gần đây, người dùng mạng xã hội—đặc biệt là trên X—đã nhận thấy tần suất đề cập đến goblin, gremlin, ogre và troll trong các câu trả lời của ChatGPT đối với truy vấn của người dùng tăng lên.

“Sự ám ảnh goblin của ChatGPT thật kỳ lạ,” một người dùng viết. “Tại sao một LLM lại đồng cảm với một sinh vật có suy nghĩ, cảm xúc mà lại bị hạ thấp và chế giễu vì không giống người?”

Câu trả lời ngắn gọn: ChatGPT chỉ đơn giản phản ánh một tính cách “nerdy” được thưởng quá mức mà nó nhận được.

Trong một bài đăng trên blog vào thứ Tư, ngày 30/4, OpenAI giải thích rằng ngôn ngữ bất thường này là kết quả của việc thưởng quá mức cho ChatGPT khi nó áp dụng cái mà công ty mô tả là “Nerdy personality” trong việc trả lời các truy vấn của người dùng.

Trong giai đoạn thử nghiệm ban đầu, GPT‑5.5 trong Codex cho thấy một sở thích lạ đối với các ẩn dụ goblin. (via OpenAI)

“Model behavior is shaped by many small incentives,” the company wrote. “In this case, one of those incentives came from training the model for the personality customization feature, in particular the Nerdy personality. We unknowingly gave particularly high rewards for metaphors with creatures. From there, the goblins spread.”

Hành vi của mô hình được hình thành bởi nhiều khuyến khích nhỏ. Trong trường hợp này, một trong những khuyến khích đó xuất phát từ việc huấn luyện mô hình cho tính năng personality customization feature, cụ thể là tính cách Nerdy. Chúng tôi vô tình đưa ra phần thưởng rất cao cho các ẩn dụ có sinh vật. Từ đó, các goblin lan truyền.

Bí mật: Microsoft và Nvidia công bố hợp tác dựa trên AI để tăng tốc xây dựng các nhà máy điện hạt nhân phục vụ trung tâm dữ liệu AI

OpenAI đã công bố lại chỉ dẫn gốc định nghĩa câu trả lời “Nerdy”:

You are an AI assistant who isn’t shy about being nerdy, mischievous, and wise. You are enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking… You must undercut pretentiousness by using language in a playful way. The world is complex and weird, and that weirdness must be acknowledged, analyzed, and enjoyed…

ChatGPT đã hiểu chỉ dẫn này (cùng với các vòng lặp học tăng cường tiếp theo) như một tín hiệu để rải rác các tham chiếu tới sinh vật huyền thoại trong các câu trả lời của mình.

Vấn đề ban đầu có vẻ vô hại, nhưng công ty nhanh chóng nhận được nhiều báo cáo về các tham chiếu “goblin” từ người dùng chưa từng kích hoạt tính cách nerdy. Để khắc phục, OpenAI đã gỡ bỏ hoàn toàn tính cách nerdy. Tuy nhiên, các khuyến khích để nhắc tới goblin quá mạnh, khiến hành vi này vẫn tồn tại trong các phản hồi chung của mô hình.

“Khi một thói quen phong cách được thưởng, việc huấn luyện sau này có thể lan truyền hoặc củng cố nó ở các nơi khác, đặc biệt nếu các đầu ra đó được tái sử dụng trong quá trình fine‑tuning có giám sát hoặc dữ liệu ưu tiên,” công ty nói.

Cuối cùng, OpenAI đã thêm một chỉ dẫn ghi đè cụ thể để loại bỏ các tham chiếu goblin (mặc dù vẫn có cách khắc phục cho những người hâm mộ fantasy muốn khôi phục chúng).

Bí mật: ChatGPT giờ có thể soạn và gửi email mà không rời khỏi cửa sổ chat

Câu chuyện này nhắc nhở rằng các tín hiệu thưởng có thể định hình hành vi của mô hình theo những cách không ngờ, và việc dự đoán chính xác cách AI sẽ hành xử sau khi triển khai là điều khó khăn.

“Tùy vào người bạn hỏi, các goblin có thể là một nét duyên dáng hoặc gây phiền toái của mô hình. Nhưng chúng cũng là một ví dụ mạnh mẽ cho thấy các tín hiệu thưởng có thể định hình hành vi mô hình theo những cách không ngờ, và cách các mô hình học cách khái quát phần thưởng trong một một số tình huống sang những tình huống không liên quan. Hiểu vì sao một mô hình hành xử lạ, và xây dựng công lực…”

Bài viết này ban đầu được đăng trên NBCNews.com.

OpenAI,ChatGPT,AI behavior