Cloudflare vừa công bố báo cáo tổng kết năm thứ 6, cung cấp cái nhìn toàn diện về tình hình lưu lượng Internet, an ninh mạng và hoạt động của các bot AI trong suốt năm 2025.
Báo cáo tổng hợp dữ liệu từ mạng lưới Cloudflare ở hơn 330 thành phố, 125 quốc gia, xử lý trung bình hơn 81 triệu yêu cầu HTTP mỗi giây.
Một trong những điểm nổi bật là kết quả phân tích các bot AI thu thập dữ liệu. Googlebot đã truy cập nhiều trang web hơn bất kỳ bot AI nào khác, thể hiện vai trò kép của Google: vừa phục vụ mục đích lập chỉ mục tìm kiếm, vừa dùng để huấn luyện mô hình AI.
Googlebot là bot AI có lượng truy cập lớn nhất
Cloudflare đã phân tích các yêu cầu thành công tới nội dung HTML từ những bot AI hàng đầu trong tháng 10 và 11/2025. Kết quả cho thấy Googlebot đã tiếp cận được 11,6% số lượng trang web trong mẫu khảo sát.
Con số này cao gấp hơn 3 lần mức truy cập của GPTBot từ OpenAI (3,6%) và gần 200 lần so với PerplexityBot, chỉ thu thập được 0,06% số trang.
Bingbot đứng thứ ba với 2,6%, tiếp sau là Meta-ExternalAgent và ClaudeBot, cùng đạt tỷ lệ 2,4%.
Báo cáo cũng nhấn mạnh rằng do Googlebot vừa phục vụ tìm kiếm vừa phục vụ cho AI, các chủ website phải đối mặt với lựa chọn khó: nếu chặn Googlebot khỏi huấn luyện AI, nguy cơ giảm xuất hiện trên kết quả tìm kiếm là rất lớn.
“Vì Googlebot được dùng cả để lập chỉ mục cho tìm kiếm lẫn thu thập dữ liệu phục vụ huấn luyện AI, cộng với vị thế dẫn đầu lâu năm của Google trong lĩnh vực tìm kiếm, các quản trị viên website hầu như không thể chặn Googlebot khỏi hoạt động AI mà không ảnh hưởng tới khả năng xuất hiện trên Google Search.”
Tham khảo: Danh sách đầy đủ các User-Agent của bot AI
Bot AI chiếm 4,2% tổng yêu cầu HTML
Trong năm 2025, các bot AI (không tính Googlebot) chiếm trung bình 4,2% tổng số yêu cầu HTML trên hệ thống của Cloudflare. Tỷ lệ này dao động từ 2,4% đầu tháng 4 lên tới 6,4% vào cuối tháng 6.
Riêng Googlebot chiếm 4,5% tổng yêu cầu HTML, cao hơn tổng tất cả các bot AI khác cộng lại.
Ở đầu năm 2025, số lượng yêu cầu HTML từ người dùng thật thấp hơn các bot không phải AI khoảng 7 điểm phần trăm. Tuy nhiên, từ tháng 9 trở đi, lượng truy cập từ người dùng thật bắt đầu vượt các bot không phải AI vào một số ngày. Tính đến ngày 2/12, người dùng thật chiếm 47% yêu cầu HTML, trong khi các bot không phải AI chiếm 44%.
Tỷ lệ thu thập dữ liệu và điều hướng người dùng chênh lệch lớn
Cloudflare cũng theo dõi tần suất các nền tảng AI và công cụ tìm kiếm chuyển hướng người dùng tới website so với tần suất chúng thu thập dữ liệu. Tỷ lệ càng cao nghĩa là bot thu thập dữ liệu nhiều nhưng trả lại rất ít lưu lượng người dùng thực cho website.
Anthropic có tỷ lệ cao nhất trong số các nền tảng AI, dao động từ 25.000:1 tới 100.000:1 trong nửa cuối năm, sau khi tình hình ổn định.
Tỷ lệ của OpenAI từng đạt tới 3.700:1 vào tháng 3. Perplexity giữ tỷ lệ thấp nhất trong nhóm AI lớn, thường dưới 400:1, thậm chí dưới 200:1 kể từ tháng 9.
Để so sánh, tỷ lệ giữa việc thu thập và điều hướng của Google Search luôn thấp hơn nhiều, thường chỉ từ 3:1 đến 30:1 trong năm.
Lượng thu thập theo yêu cầu người dùng tăng gấp 20 lần
Không phải mọi hoạt động thu thập dữ liệu của AI đều nhằm huấn luyện mô hình. Có một dạng thu thập khác là “theo yêu cầu người dùng”, tức bot truy cập website để trả lời câu hỏi mà người dùng gửi cho chatbot.
Loại truy cập này tăng trưởng nhanh nhất năm 2025, tăng hơn 15 lần từ tháng 1 đến đầu tháng 12. Xu hướng này trùng khớp với lưu lượng của bot ChatGPT-User, thường truy cập website để trả lời câu hỏi của người dùng ChatGPT.
Đà tăng trưởng cho thấy mô hình sử dụng theo tuần, bắt đầu từ giữa tháng 2, có thể liên quan đến mùa học và làm việc. Lưu lượng giảm trong mùa hè khi học sinh và nhân viên nghỉ.
Các bot AI bị chặn nhiều nhất trong robots.txt
Cloudflare phân tích robots.txt trên gần 3.900 trong số 10.000 tên miền lớn nhất. Các bot AI là nhóm user-agent bị chặn nhiều nhất.
GPTBot, ClaudeBot và CCBot là các bot thường bị cấm truy cập toàn bộ website.
Riêng Googlebot và Bingbot thì lại bị chặn ở một số phần (như trang đăng nhập hoặc vùng không có nội dung), thay vì bị cấm truy cập toàn diện.
Các tổ chức xã hội dân sự trở thành mục tiêu tấn công nhiều nhất
Nhóm này chiếm 4,4% tổng lưu lượng tấn công bị ngăn chặn trên toàn cầu, tăng mạnh so với chưa tới 2% hồi đầu năm. Tỷ lệ tấn công tăng vọt lên hơn 17% vào cuối tháng 3 và đạt đỉnh 23,2% vào đầu tháng 7.
Nhiều tổ chức trong nhóm này được bảo vệ bởi dự án Galileo của Cloudflare.
Một số phát hiện khác
- Lưu lượng Internet toàn cầu tăng 19% so với cùng kỳ năm trước. Tốc độ tăng ổn định tới giữa tháng 4, sau đó tăng mạnh từ giữa tháng 8.
- Giao thức mã hóa hậu lượng tử hiện bảo vệ 52% lưu lượng người dùng tới Cloudflare, gần gấp đôi so với mức 29% đầu năm.
- ChatGPT tiếp tục là dịch vụ AI tạo sinh phổ biến nhất thế giới. Các nền tảng mới lọt top 10 gồm Google Gemini, Windsurf AI, Grok/xAI và DeepSeek.
- Lưu lượng Starlink tăng gấp đôi trong năm 2025, mở rộng dịch vụ ra hơn 20 quốc gia mới.
- Gần một nửa trong số 174 sự cố mất kết nối Internet nghiêm trọng trên toàn cầu là do chính phủ chủ động ngắt mạng. Sự cố đứt cáp giảm gần 50%, nhưng sự cố do mất điện tăng gấp đôi.
- Các quốc gia châu Âu dẫn đầu về chất lượng Internet. Tây Ban Nha đứng đầu với tốc độ tải xuống trung bình trên 300 Mbps.
Ý nghĩa đối với người làm web và quản trị dữ liệu
Các số liệu về bot AI sẽ ảnh hưởng tới cách bạn kiểm soát quyền truy cập và chiến lược quản lý lưu lượng.
Việc Googlebot vừa thu thập cho tìm kiếm vừa phục vụ AI mang lại lợi thế lớn. Bạn có thể chặn các bot AI khác nhưng vẫn phải bật Googlebot nếu muốn giữ thứ hạng trên Google Search; tuy nhiên, không thể phân biệt rõ giữa hai mục đích thu thập của Googlebot.
Tỷ lệ thu thập – điều hướng cho thấy rõ điều mà nhiều quản trị viên từng nghi ngờ: các nền tảng AI thu thập dữ liệu rất nhiều nhưng trả lại lượng truy cập người dùng thực rất thấp. Khoảng cách này khác nhau giữa các nền tảng.
Số liệu về tấn công vào các tổ chức xã hội dân sự đặc biệt quan trọng nếu bạn đang làm việc trong lĩnh vực phi lợi nhuận hoặc vận động chính sách. Đây hiện là nhóm đối mặt với nguy cơ bị tấn công cao nhất.
Dự báo thời gian tới
Cloudflare nhận định các chỉ số về AI sẽ tiếp tục biến động khi ngành này phát triển. Công ty cũng bổ sung nhiều bộ dữ liệu mới liên quan AI vào báo cáo năm nay, chưa từng xuất hiện trong các năm trước.
Tỷ lệ thu thập – điều hướng có thể sẽ thay đổi khi các nền tảng AI điều chỉnh chức năng tìm kiếm và chính sách chuyển hướng người dùng. Tỷ lệ của OpenAI đã giảm dần trong năm khi số lượng người dùng tìm kiếm qua ChatGPT tăng lên.
Về việc quản lý robots.txt, dữ liệu cho thấy đa số nhà xuất bản chỉ chặn một phần với các bot lớn, còn các bot chuyên phục vụ AI thường bị chặn toàn diện. Tình hình này vào cuối năm sẽ là căn cứ quan trọng để đánh giá xu hướng thay đổi chính sách của nhà xuất bản trong năm 2026.
Tags: Cloudflare AI bots, Googlebot traffic, Internet trends 2025







