Một số người lên tiếng bảo vệ Perplexity sau khi bị Cloudflare “điểm mặt chỉ tên”

Một số người lên tiếng bảo vệ Perplexity sau khi bị Cloudflare “điểm mặt chỉ tên”

Khi Cloudflare cáo buộc công cụ tìm kiếm AI Perplexity [lén lút thu thập dữ liệu từ các trang web](https://techcrunch.com/2025/08/04/perplexity-accused-of-scraping-websites-that-explicitly-blocked-ai-scraping/) vào thứ Hai vừa rồi, đồng thời bỏ qua các biện pháp chặn thu thập dữ liệu AI mà chủ website đã thiết lập, thì đây không phải là một vụ “bot AI mất kiểm soát” rõ ràng như nhiều người nghĩ.

Trên mạng xã hội, nhiều ý kiến đã lên tiếng bênh vực Perplexity. Họ cho rằng việc Perplexity truy cập các trang web dù bị chủ sở hữu cấm đoán là điều gây tranh cãi, nhưng cũng không phải là sai hoàn toàn. Đây chắc chắn sẽ còn là đề tài tranh luận trong bối cảnh các tác nhân AI ngày càng phổ biến: Liệu khi một AI truy cập website thay người dùng, thì nên xem đó là hành động của bot, hay là giống như một người thật đang tự truy cập?

Cloudflare vốn nổi tiếng với các dịch vụ chống bot và bảo mật web cho hàng triệu website. Trong thử nghiệm mới đây, Cloudflare đã tạo một website hoàn toàn mới, với tên miền chưa từng được bot nào truy cập, đồng thời cấu hình tệp robots.txt để chặn các bot AI của Perplexity. Sau đó, họ thử yêu cầu Perplexity truy vấn nội dung của trang này – và Perplexity vẫn trả lời được.

Các chuyên gia của Cloudflare phát hiện, khi bị chặn bot, Perplexity đã sử dụng một trình duyệt giả lập, đóng giả Google Chrome trên hệ điều hành macOS để vượt qua các lớp bảo vệ. CEO của Cloudflare, ông Matthew Prince, đã [đăng tải kết quả này lên X (Twitter)](https://x.com/eastdakota/status/1952379571527193017) và nhận xét: “Có những công ty AI tưởng chừng rất uy tín nhưng hành xử chẳng khác gì hacker Triều Tiên. Đã đến lúc phải chỉ mặt đặt tên và chặn dứt điểm họ.”

Tuy nhiên, nhiều người lại không đồng ý với quan điểm của ông Prince. Những ý kiến bảo vệ Perplexity trên [X](https://x.com/Chikor_Zi/status/1952382355059913193) và [Hacker News](https://news.ycombinator.com/item?id=44785636) cho rằng, thực chất Cloudflare chỉ phát hiện AI truy cập một website công khai khi người dùng chủ động yêu cầu.

> “Nếu tôi là người dùng, tôi vào một trang web thì phải được xem nội dung. Vậy tại sao khi tôi dùng AI (LLM) để truy cập thay mình thì lại bị xem là khác với việc tôi tự mở bằng Firefox?” – một thành viên trên [Hacker News](https://news.ycombinator.com/item?id=44786039) đặt câu hỏi.

Đại diện Perplexity từng [khẳng định](https://techcrunch.com/2025/08/04/perplexity-accused-of-scraping-websites-that-explicitly-blocked-ai-scraping/) với TechCrunch rằng những bot bị cáo buộc không phải của công ty, đồng thời cho rằng động thái của Cloudflare chỉ nhằm quảng bá dịch vụ. Đến thứ Ba, Perplexity [đăng tải một bài blog](https://www.perplexity.ai/hub/blog/agents-or-bots-making-sense-of-ai-on-the-open-web) phản hồi, và giải thích rằng các truy cập này đến từ một dịch vụ bên thứ ba mà họ chỉ sử dụng thỉnh thoảng – chứ không phải do hệ thống chính của họ.

Mặc dù vậy, ý chính mà Perplexity muốn nhấn mạnh vẫn giống với lập luận của cộng đồng ủng hộ:

> “Khác biệt giữa thu thập dữ liệu tự động và việc người dùng chủ động yêu cầu AI truy vấn không chỉ là vấn đề kỹ thuật – mà quan trọng hơn là ai có quyền truy cập thông tin trên internet mở,” bài blog viết. “Những tranh cãi này cho thấy hệ thống của Cloudflare chưa đủ khả năng phân biệt giữa công cụ AI đáng tin cậy với các mối đe dọa thực sự.”

Tuy nhiên, lập luận của Perplexity cũng chưa hẳn đã thuyết phục. Một điểm mà Cloudflare nêu ra để chỉ trích là: OpenAI không làm như vậy.

> “OpenAI là ví dụ rõ rệt về một công ty AI lớn tuân thủ các tiêu chuẩn tốt nhất,” [Cloudflare viết](https://blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives). “Họ tôn trọng robots.txt, không cố vượt qua các chỉ dẫn này, và ChatGPT Agent hiện cũng đang xác thực truy vấn http bằng tiêu chuẩn Web Bot Auth mới.”

[Web Bot Auth](https://developers.cloudflare.com/bots/concepts/bot/verified-bots/web-bot-auth/) là một tiêu chuẩn xác thực truy vấn web dành cho AI, đang được IETF phát triển và Cloudflare hỗ trợ.

Cuộc tranh luận này diễn ra trong bối cảnh bot “làm mưa làm gió” trên internet. Như TechCrunch từng đề cập, các bot thu thập dữ liệu để huấn luyện AI [đang là vấn nạn lớn](https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/), nhất là đối với các trang web nhỏ.

Lần đầu tiên trong lịch sử internet, [lưu lượng bot đã vượt qua lưu lượng người dùng thực](https://www.imperva.com/resources/resource-library/reports/2025-bad-bot-report/), với lưu lượng AI chiếm hơn 50% theo báo cáo của Imperva mới đây. Nhiều hoạt động này đến từ các mô hình AI ngôn ngữ lớn (LLM). Báo cáo cũng cho biết bot gây hại chiếm tới 37% tổng lưu lượng internet, bao gồm việc thu thập dữ liệu ồ ạt, đăng nhập trái phép, v.v.

Trước khi có LLM, gần như ai cũng đồng ý rằng website nên chủ động chặn bot, vì đa phần bot đều gây hại, nhờ CAPTCHA hay các dịch vụ như Cloudflare. Với các bot “có ích” như Googlebot, các trang web vẫn hợp tác, hướng dẫn qua robots.txt vì Google mang lại lưu lượng truy cập.

Nhưng giờ đây, LLM đang “lấy dần” lưu lượng đó. Gartner dự báo [lượng tìm kiếm qua công cụ truyền thống](https://www.gartner.com/en/newsroom/press-releases/2024-02-19-gartner-predicts-search-engine-volume-will-drop-25-percent-by-2026-due-to-ai-chatbots-and-other-virtual-agents) sẽ giảm 25% vào năm 2026. Hiện tại, người dùng chỉ nhấp vào liên kết từ LLM khi thực sự muốn mua, sử dụng dịch vụ – đúng lúc website cần nhất.

Và nếu mọi người [chuyển sang dùng tác nhân AI](https://techcrunch.com/2024/12/15/what-exactly-is-an-ai-agent/) để đặt vé, mua hàng, tìm thông tin… thì việc website chặn các tác nhân này có thể tự làm hại chính mình? Trên X, nhiều ý kiến đã nêu rõ tình thế tiến thoái lưỡng nan này:

> “Tôi muốn Perplexity truy cập mọi nội dung công khai thay tôi khi tôi yêu cầu!” – một người dùng lên tiếng khi Cloudflare chỉ trích Perplexity. > > “Nhưng nếu chủ website không đồng ý thì sao? Họ chỉ muốn bạn trực tiếp vào trang chủ, xem sản phẩm, giúp họ tăng lượng truy cập và doanh thu quảng cáo, chứ không phải để Perplexity lấy hết,” một ý kiến khác phản đối. > > “Đó là lý do tôi nghĩ ‘tác nhân duyệt web’ sẽ rất khó phát triển – vấn đề này phức tạp hơn nhiều người tưởng. Đa số chủ web sẽ chọn cách chặn lại thôi,” một người khác dự đoán.


Tham khảo thêm các [gợi ý ChatGPT sáng tạo nội dung hay nhất của tôi](https://aiphogpt.com)

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top