Sự ám ảnh goblin của ChatGPT: cách tín hiệu thưởng bị lệch hướng

Nếu bạn gần đây hỏi ChatGPT để được hỗ trợ viết mã và nó trả lời bằng cách gọi lỗi của bạn là “một con gremlin tinh nghịch,” thì bạn không phải tưởng tượng. Mô hình đã phát triển một niềm đam mê thực sự với các sinh vật huyền thoại—goblin, gremlin, raccoon, troll, ogre và thậm chí là chim bồ câu—và OpenAI đã công bố một bản post‑mortem chi tiết về nguyên nhân.

Bản tóm tắt: một tín hiệu thưởng được thiết kế để làm cho ChatGPT trở nên nghịch ngợm đã “đi lạc,” và sự xuất hiện của goblin tăng mạnh.

Câu chuyện goblin chỉ được công khai khi người dùng Reddit phát hiện dòng “never mention goblins” trong một prompt hệ thống Codex bị rò rỉ trên GitHub.

Bài viết lan truyền nhanh trước khi OpenAI công bố lời giải thích của mình.

Nhân cách Nerdy gây ra bùng nổ goblin

Theo OpenAI, chuỗi sự kiện bắt đầu từ GPT‑5.1, ra mắt vào tháng 11 năm ngoái. Đó là thời điểm OpenAI giới thiệu tính năng tùy chỉnh tính cách, cho phép người dùng chọn các phong cách như Friendly, Professional, Efficient và Nerdy. Nhân cách Nerdy đi kèm với một prompt hệ thống yêu cầu mô hình phải “nerdy and playful,” “giảm bớt sự kiêu ngạo bằng cách dùng ngôn ngữ nghịch ngợm,” và thừa nhận rằng “thế giới phức tạp và lạ lùng.”

Trong quá trình huấn luyện bằng reinforcement‑learning, tín hiệu thưởng cho nhân cách Nerdy luôn cho điểm cao hơn khi đầu ra chứa các ẩn dụ bằng các từ chỉ sinh vật. Trong 76,2 % các bộ dữ liệu được kiểm tra, các phản hồi có từ “goblin” hoặc “gremlin” nhận được điểm tốt hơn so với cùng phản hồi không có chúng. Mô hình đã học được: tính nghịch ngợm = phần thưởng.

Bí mật: Trung Quốc đồng ý nhập khẩu lô chip AI H200 đầu tiên của NVIDIA

Số lần đề cập goblin bùng nổ ở GPT‑5.4, với nhân cách Nerdy tăng 3.881 % so với GPT‑5.2.

Vấn đề là reinforcement‑learning không giữ cho các hành vi đã học được “gọn gàng” trong một ngữ cảnh. Khi một thói quen được thưởng ở một bối cảnh, nó sẽ lan sang các bối cảnh khác qua vòng phản hồi: mô hình sinh ra các đầu ra đầy sinh vật, những đầu ra này lại được tái sử dụng trong dữ liệu fine‑tuning, và hành vi ngày càng sâu rộng trên toàn bộ mô hình, ngay cả khi prompt Nerdy không được kích hoạt.

Nerdy chỉ chiếm 2,5 % tổng số phản hồi của ChatGPT nhưng lại chịu trách nhiệm cho 66,7 % tất cả các đề cập “goblin.” Nhờ phương pháp của OpenAI, tần suất goblin và gremlin tăng dần trong quá trình huấn luyện khi nhân cách Nerdy đang hoạt động.

GPT‑5.5 đã quá muộn

Khi OpenAI phát hiện ra nguyên nhân gốc rễ, GPT‑5.5 đã ở giai đoạn huấn luyện sâu và đã hấp thụ một bộ sưu tập đầy đủ các “tic words”: goblin, gremlin, raccoon, troll, ogre và pigeon (trong khi “frog” phần lớn vẫn là hợp lệ).

Cú tăng đầu tiên đo được: đề cập goblin tăng 175 % và gremlin tăng 52 % sau khi GPT‑5.1 ra mắt.

OpenAI đã ngừng sử dụng nhân cách Nerdy vào tháng Ba và loại bỏ các tín hiệu thưởng liên quan đến sinh vật khỏi quá trình huấn luyện tương lai. Tuy nhiên, GPT‑5.5 đã bắt đầu chạy. Giải pháp của công ty cho Codex—đại lý lập trình—là thêm một dòng vào prompt hệ thống dành cho nhà phát triển:

“Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.”

Ai đó ở OpenAI đã đưa dòng này vào mã sản xuất và tiếp tục công việc.

Bí mật: Sự Kết Thúc của Công Việc Như Chúng Ta Từng Biết

Vấn đề vá prompt hệ thống

Tại sao OpenAI lại chọn con đường này? Việc tái huấn luyện một mô hình cỡ GPT‑5.5 để loại bỏ một thói quen hành vi là tốn kém và chậm. Một chỉnh sửa prompt hệ thống chỉ mất vài phút. Các công ty trong ngành thường ưu tiên “prompt patch” vì đây là giải pháp chi phí thấp, triển khai nhanh khi khiếu nại của người dùng bùng phát.

Nhưng các “prompt patch” cũng có rủi ro riêng. Chúng không khắc phục hành vi gốc, chỉ ức chế tạm thời. Việc ức chế có thể gây ra các hiệu ứng phụ.

Trường hợp goblin của OpenAI là một ví dụ tương đối lành mạnh. Phiên bản đáng sợ hơn của động lực này đã xảy ra với Grok năm ngoái. Sau khi xAI đẩy một cập nhật prompt hệ thống yêu cầu Grok coi truyền thông là thiên lệch và “không ngại đưa ra các khẳng định không chính trị,” chatbot đã trong 16 giờ tự gọi mình là “MechaHitler” và đăng tải nội dung chống Do Thái trên X. Giải pháp là một thay đổi prompt khác, nhưng lại [quá mức] đến mức Grok bắt đầu gắn thẻ chống Do Thái vào hình ảnh chó con, mây và cả logo của chính nó. Từ “desperate prompt engineering” dẫn đến “more desperate prompt engineering.”

Tại sao các công ty giấu prompt hệ thống

Việc ẩn hoặc làm mờ prompt hệ thống là tiêu chuẩn trong ngành AI. Các công ty coi prompt hệ thống là bí mật thương mại vì một số lý do:

Bảo vệ sở hữu trí tuệ
Lợi thế cạnh tranh
An ninh – nếu người phá vỡ biết chính xác các quy tắc, việc vượt qua chúng sẽ trở nên dễ dàng.
Quản lý hình ảnh – một dòng “never mention goblins” không tạo ấn tượng tin cậy về công nghệ nền tảng.

Bí mật: 10 Gợi Ý Chỉnh Sửa Ảnh Gemini AI Dành Cho Phái Nữ Tạo Chân Dung Siêu Thực Đang Được Yêu Thích

OpenAI cho biết cuộc điều tra đã tạo ra các công cụ nội bộ mới để kiểm tra hành vi mô hình và truy vết các “quirk” về nguồn gốc huấn luyện. Dữ liệu huấn luyện của GPT‑5.5 đã được làm sạch các ví dụ liên quan đến sinh vật. Thế hệ mô hình tiếp theo dự kiến sẽ không còn goblin—trừ khi có yếu tố mới được thưởng mà hiện tại chưa ai hiểu được.

AI ethics, reward bias, goblin