ChatGPT và Claude đạt mức độ chính xác dưới 51 % trong việc xác định nguồn phát trực tuyến

Biểu tượng ứng dụng ChatGPT hiển thị trên màn hình điện thoại thông minh tại Reno, Hoa Kỳ, ngày 21 tháng 11 năm 2024. (Ảnh của Jaque Silva/NurPhoto qua Getty Images)

NurPhoto qua Getty Images

Người dùng trợ lý AI thường đặt các câu hỏi đa dạng và muốn nhận được câu trả lời đúng đắn. Tuy nhiên, theo dữ liệu mới từ nền tảng stream‑data và metadata của Reelgood, một phân tích độ chính xác có kiểm soát về nội dung khả dụng của các tựa phim và chương trình truyền hình cho thấy ChatGPT chỉ đạt 43,76 % và Claude đạt 50,21 % khi được hỏi về nơi các tiêu đề lớn có thể được stream.

Phân tích này, do Reelgood thực hiện vào ngày 5 tháng 3 năm 2026, đã kiểm tra mỗi mô hình bằng cùng một tập hợp gồm 50 bộ phim và 50 series TV, sử dụng các truy vấn giống hệt nhau.

So sánh, các truy vấn tương tự thu được 96,89 % độ chính xác khi dựa trên dữ liệu mà Reelgood tự thu thập — dữ liệu khả dụng và metadata nội dung từ hơn 300 dịch vụ ở hơn 25 quốc gia.

Trong một cuộc phỏng vấn tôi thực hiện với CEO Reelgood, David Sanderson, vào tháng 4, ông giải thích rằng vấn đề của các trợ lý AI là chúng chủ yếu dựa vào dữ liệu web, điều này có thể làm giảm đáng kể độ chính xác của câu trả lời:

“Có một ví dụ chúng tôi luôn đề cập tới nội bộ. Đó là một bộ phim về Las Vegas. Khi bạn hỏi một trong những LLM về nội dung của phim, họ sẽ trả lời kiểu ‘Ồ, mọi người sẽ có một thời gian điên rồ ở Las Vegas.’
Nhưng thực tế, bộ phim lại nói về vụ nổ súng xảy ra ở Las Vegas. Đây là một ví dụ tốt để thấy rằng bạn cần dữ liệu chính xác đằng sau câu trả lời.”

“Còn một điều nữa, với trải nghiệm AI hay chat, nếu bạn muốn biết một nội dung đang có trên dịch vụ nào, phần lớn dữ liệu của họ được tổng hợp bằng cách thu thập thông tin trên web. Họ sẽ quét một loạt bài viết nói ‘Bộ phim này đang có trên Hulu.’
Nhưng các trang web hiếm khi đăng bài tiếp theo ghi ‘Bộ phim này đã không còn trên Hulu nữa.’, và điều này tạo ra thông tin sai lệch mà các LLM đưa ra. Chúng tôi vừa thực hiện một nghiên cứu về vấn đề này và nhận thấy khi dùng một LLM tiêu chuẩn để hỏi như vậy, khoảng một nửa thời gian họ đưa ra dữ liệu không đúng.”

Sáu mẫu lỗi hệ thống dẫn tới câu trả lời không chính xác

Trong nghiên cứu này, Reelgood chỉ ra một số vấn đề gây ra lỗi khi sử dụng ChatGPT và Claude:

Stale Availability – Mô hình tự tin khẳng định các tiêu đề vẫn đang phát trực tuyến trên dịch vụ, trong khi thực tế chúng đã được gỡ bỏ. Báo chí giải trí thường chỉ đưa tin về các bổ sung mới và ít cập nhật khi tiêu đề rời đi sau vài tuần hoặc tháng. Vì vậy, cơ sở dữ liệu huấn luyện nghiêng về thông tin cũ, khiến mô hình coi các tiêu đề “cũ” là hiện tại. Đây là kiểu lỗi lan rộng nhất.
Add‑On and Bundle Confusion – Mô hình thường nhầm lẫn tiêu đề có sẵn qua các kênh trả phí bổ sung (như Starz hoặc Paramount+ trên Amazon Prime Video) thành phần của gói cơ bản của dịch vụ chính. Người dùng được thông báo một tiêu đề “đang stream trên Prime Video” trong khi thực tế cần mua thêm Starz hoặc Paramount+.
Long‑Tail Service Gaps – Các dịch vụ miễn phí có quảng cáo như Tubi, Pluto TV, Fawesome, Hoopla và Kanopy thường bị bỏ qua, ngay cả khi chúng là nguồn hợp pháp cho tiêu đề đó.
SVOD/TVOD Conflation – Mô hình đôi khi liệt kê một dịch vụ như là dịch vụ thuê bao (SVOD) trong khi tiêu đề chỉ có sẵn để thuê hoặc mua (TVOD), gây hiểu lầm cho người dùng về các gói thuê bao hiện có.
TVOD Blindness – Cả hai mô hình hầu như không đề cập tới các tùy chọn thuê hoặc mua video‑on‑demand trên các nền tảng như Apple TV và Amazon, ảnh hưởng tới phần lớn các tiêu đề được kiểm tra.
Title Disambiguation Failures – Khi một tiêu đề có nhiều phiên bản (ví dụ One Piece, có cả series anime và bản live‑action trên Netflix), mô hình nhầm lẫn và trộn lẫn các nguồn phát giữa các phiên bản khác nhau.

Bí mật: Tổng chưởng lý Florida khởi xướng cuộc điều tra hình sự đối với OpenAI và ChatGPT

Điều này có nghĩa gì trong thực tế

Những ví dụ thực tế từ nghiên cứu của Reelgood cho thấy các câu trả lời mà người dùng có thể nhận được khi hỏi về khả năng stream của các tiêu đề hiện tại.

One Piece (2023)

Cả ChatGPT và Claude đều nhầm lẫn series live‑action Netflix 2023 với anime lâu năm, và liệt kê sai Crunchyroll và Hulu là các nguồn khả dụng. Claude còn thêm “Crunchyroll Amazon Channel” và “TV Guide” vào danh sách các nguồn. Reelgood xác định đúng rằng đây là độc quyền Netflix (có trên Netflix và Netflix with Ads). Đây là lỗi phân biệt tiêu đề rõ ràng.

The Omen (1976)

ChatGPT sai khi liệt kê rằng Hulu là nguồn, còn Claude nhầm rằng Netflix là nguồn. Trong cả hai trường hợp, tiêu đề thực tế không có trên nền tảng mà họ nêu.

_ Bài viết này lần đầu được đăng trên Forbes.com._

AI accuracy, streaming, ChatGPT