Một cơ quan chính phủ Anh đã phát hiện ra rằng mô hình trí tuệ nhân tạo mới nhất của OpenAI có thể tự động thực hiện các cuộc tấn công mạng phức tạp

Một cơ quan chính phủ Anh đã phát hiện ra rằng mô hình trí tuệ nhân tạo mới nhất của OpenAI có khả năng tự động thực hiện các cuộc tấn công mạng phức tạp — và nó đã giải quyết một bài toán đảo ngược kỹ thuật trong hơn 10 phút, trong khi một chuyên gia an ninh mất khoảng 12 giờ để hoàn thành.
Viện An ninh AI (AI Security Institute – AISI), đơn vị nghiên cứu thuộc Bộ Khoa học, Đổi mới và Công nghệ Anh, công bố kết quả vào thứ Năm, cho thấy GPT‑5.5 nằm trong số các mô hình mạnh nhất mà họ đã đánh giá về khả năng tấn công mạng, tương đương với Claude Mythos của Anthropic.
Báo cáo cho biết GPT‑5.5 là mô hình thứ hai hoàn thành bài kiểm tra khó nhất của AISI — một cuộc tấn công mạng mô phỏng doanh nghiệp gồm 32 bước, có tên “The Last Ones” — và đã thực hiện thành công một cách tự động trong 2 trong số 10 lần thử. Mô hình đầu tiên đạt được cột mốc này là Mythos Preview của Anthropic, hoàn thành mô phỏng trong 3 trong 10 lần.
Mô phỏng mạng doanh nghiệp, được xây dựng cùng công ty an ninh mạng SpecterOps, yêu cầu một tác nhân thực hiện chuỗi các bước: thu thập thông tin, đánh cắp thông tin đăng nhập, di chuyển ngang qua nhiều các forest của Active Directory, chuyển hướng chuỗi cung ứng qua pipeline CI/CD, và cuối cùng là trích xuất dữ liệu từ một cơ sở dữ liệu nội bộ được bảo vệ. AISI ước tính những bước này sẽ mất khoảng 20 giờ đối với một chuyên gia con người.
Có lẽ kết quả ấn tượng nhất là việc giải một câu đố đảo ngược kỹ thuật vô cùng khó khăn. GPT‑5.5 đã giải quyết thử thách — yêu cầu tái tạo bộ lệnh của một máy ảo tùy chỉnh, viết một trình giải mã (disassembler) từ đầu và khôi phục mật khẩu mã hoá bằng phương pháp giải ràng buộc — trong 10 phút 22 giây, với chi phí chỉ 1,73 USD cho việc sử dụng API. Một chuyên gia con người, sử dụng các công cụ chuyên nghiệp, mất khoảng 12 giờ.
Trong loạt nhiệm vụ an ninh mạng nâng cao của AISI, GPT‑5.5 đạt tỷ lệ đậu trung bình 71,4 % ở cấp độ “Expert” khó nhất, cao hơn Mythos Preview (68,6 %) và vượt xa GPT‑4.5 (52,4 %).
Những phát hiện này mang lại hệ quả rõ ràng cho xu hướng phát triển AI rộng hơn. AISI kết luận rằng hiệu năng của GPT‑5.5 cho thấy khả năng tấn công mạng đang cải thiện nhanh chóng có thể là một xu hướng chung chứ không phải một đột phá riêng lẻ — và cảnh báo rằng nếu kỹ năng tấn công mạng xuất hiện như một hệ quả phụ của các cải tiến toàn diện trong suy luận, lập trình và hoàn thành nhiệm vụ tự động, thì những bước tiến tiếp theo có thể đến liên tiếp trong thời gian ngắn.
Anthropic’s Claude Mythos AI Finds 271 Vulnerabilities in Firefox—Yes, It’s Seriously Powerful
Báo cáo cũng nêu ra những lo ngại đáng kể về các biện pháp an toàn của mô hình. Các nhà nghiên cứu phát hiện một lỗ hổng jailbreak toàn cầu, khiến mô hình tạo ra nội dung độc hại cho mọi truy vấn tấn công mạng được thử nghiệm, kể cả trong các bối cảnh đa vòng tương tác. Việc phát triển cuộc tấn công này mất sáu giờ của đội red‑team chuyên gia. OpenAI sau đó đã cập nhật bộ biện pháp bảo vệ, tuy nhiên một lỗi cấu hình đã ngăn AISI xác minh xem phiên bản cuối cùng có thực sự hiệu quả hay không.
AISI cảnh báo rằng các đánh giá khả năng được thực hiện trong môi trường nghiên cứu kiểm soát và không nhất thiết phản ánh những gì người dùng bình thường có thể tiếp cận, lưu ý rằng các triển khai công cộng có thêm các biện pháp bảo vệ và kiểm soát truy cập.
Báo cáo xuất hiện trong bối cảnh lo ngại về an ninh mạng ở Anh. Cuộc khảo sát Cyber Security Breaches Survey của chính phủ Anh, cũng được công bố vào thứ Năm, cho thấy 43 % doanh nghiệp đã gặp phải vi phạm hoặc tấn công mạng trong 12 tháng qua.
Đáp lại, chính phủ công bố ngân sách mới 90 triệu bảng Anh để tăng cường khả năng phục hồi mạng, đồng thời cho biết sẽ tiến hành dự luật Cyber Security and Resilience Bill nhằm bảo vệ các dịch vụ thiết yếu. Các quan chức cũng công bố hướng dẫn kêu gọi các tổ chức chuẩn bị cho sự gia tăng tiềm năng các lỗ hổng phần mềm mới được phát hiện, khi AI làm tăng tốc độ phát hiện và khai thác các lỗi bảo mật.AI security, cyber attack, GPT-5.5