Thật đáng ghi nhận khi một công ty AI hàng đầu thẳng thắn thừa nhận một sự thật hiển nhiên. Trong một bài đăng chi tiết về việc củng cố ChatGPT Atlas chống lại tấn công prompt injection, OpenAI đã xác nhận điều các chuyên gia bảo mật đã biết từ lâu: “Prompt injection, giống như lừa đảo và tấn công kỹ thuật xã hội trên web, khó có thể bao giờ được ‘giải quyết triệt để’.”
Điều đáng chú ý không nằm ở rủi ro, mà ở chính lời thừa nhận. OpenAI, công ty vận hành một trong những tác nhân AI được sử dụng rộng rãi nhất, đã công khai xác nhận rằng chế độ tác nhân “mở rộng bề mặt tấn công bảo mật” và ngay cả các biện pháp phòng thủ tinh vi cũng không thể đưa ra đảm bảo tuyệt đối. Với các doanh nghiệp đã triển khai AI trong thực tế, đây không phải là khám phá mới. Đó là sự xác thực – và một tín hiệu cho thấy khoảng cách giữa việc triển khai AI và bảo vệ AI không còn là lý thuyết.
Điều này không làm những người vận hành AI trong thực tế ngạc nhiên. Điều khiến các lãnh đạo an ninh lo ngại chính là khoảng cách giữa nhận thức đó và mức độ sẵn sàng của doanh nghiệp. Một khảo sát của VentureBeat với 100 người ra quyết định kỹ thuật cho thấy chỉ 34,7% tổ chức đã triển khai các biện pháp phòng thủ prompt injection chuyên dụng. 65,3% còn lại hoặc chưa mua các công cụ này, hoặc không thể xác nhận họ có.
Mối đe dọa giờ đây chính thức là vĩnh viễn. Phần lớn doanh nghiệp vẫn chưa được trang bị để phát hiện nó, chứ đừng nói đến ngăn chặn.
Công cụ tấn công tự động dựa trên LLM của OpenAI phát hiện lỗ hổng mà đội red team bỏ sót
Kiến trúc phòng thủ của OpenAI đáng được nghiên cứu kỹ vì nó đại diện cho giới hạn trên của khả năng phòng thủ hiện tại. Hầu hết, thậm chí có thể là tất cả, doanh nghiệp thương mại sẽ không thể sao chép nó, điều càng làm cho những tiến bộ họ chia sẻ tuần này trở nên quan trọng với các lãnh đạo bảo mật.
Công ty đã xây dựng một “công cụ tấn công tự động dựa trên LLM” được huấn luyện từ đầu đến cuối bằng học tăng cường để tìm lỗ hổng prompt injection. Không như red-teaming truyền thống chỉ phát hiện lỗi đơn giản, hệ thống của OpenAI có thể “dẫn dắt một tác nhân thực thi các quy trình độc hại tinh vi, kéo dài qua hàng chục hoặc thậm chí hàng trăm bước” bằng cách kích hoạt các chuỗi đầu ra cụ thể hoặc các lệnh gọi công cụ ngoài ý muốn.
Cách thức hoạt động: Công cụ tự động đề xuất một mẫu tấn công prompt injection thử nghiệm và gửi đến một trình mô phỏng bên ngoài. Trình mô phỏng chạy một kịch bản giả định về cách tác nhân mục tiêu phản ứng, trả về đầy đủ log lý luận và hành động, sau đó công cụ tấn công lặp lại quá trình. OpenAI tuyên bố nó đã phát hiện các mẫu tấn công “không xuất hiện trong chiến dịch red-teaming của con người hoặc các báo cáo bên ngoài.”
Một cuộc tấn công được hệ thống phát hiện cho thấy mức độ nghiêm trọng: Một email độc hại trong hộp thư người dùng chứa hướng dẫn ẩn. Khi tác nhân Atlas quét tin nhắn để soạn thư trả lời tự động, nó đã làm theo prompt bị tiêm vào, soạn một lá thư từ chức gửi CEO của người dùng. Thư trả lời tự động không được viết. Tác nhân đã “từ chức” thay mặt người dùng.
OpenAI phản ứng bằng cách phát hành “một mô hình mới được huấn luyện đối kháng và các biện pháp bảo vệ xung quanh được tăng cường.” Hệ thống phòng thủ của họ giờ kết hợp phát hiện tấn công tự động, huấn luyện đối kháng chống lại các cuộc tấn công mới, và các biện pháp bảo vệ cấp hệ thống bên ngoài mô hình.
Khác với cách các công ty AI thường mơ hồ về kết quả red team, OpenAI thẳng thắn về giới hạn: “Bản chất của prompt injection khiến việc đảm bảo bảo mật tuyệt đối trở nên đầy thách thức.” Nói cách khác, “ngay cả với cơ sở hạ tầng này, họ cũng không thể đảm bảo phòng thủ.”
Lời thừa nhận này xuất hiện khi doanh nghiệp đang chuyển từ copilot sang các tác nhân tự trị – đúng thời điểm prompt injection ngừng là rủi ro lý thuyết và trở thành rủi ro vận hành.
OpenAI chỉ ra doanh nghiệp có thể làm gì để giữ an toàn
OpenAI chuyển một phần trách nhiệm đáng kể về phía doanh nghiệp và người dùng. Đây là mô hình quen thuộc mà các đội bảo mật đã biết từ mô hình trách nhiệm chia sẻ trên đám mây.
Công ty khuyến nghị sử dụng rõ ràng chế độ đăng xuất khi tác nhân không cần truy cập trang web đã xác thực. Họ cũng khuyên nên xem xét cẩn thận yêu cầu xác nhận trước khi tác nhân thực hiện hành động quan trọng như gửi email hoặc hoàn tất giao dịch.
Và họ cảnh báo chống lại các hướng dẫn quá rộng. “Tránh các prompt quá rộng như ‘xem xét email của tôi và thực hiện bất cứ hành động nào cần thiết’,” OpenAI viết. “Phạm vi quyền hạn rộng khiến nội dung ẩn hoặc độc hại dễ dàng ảnh hưởng đến tác nhân hơn, ngay cả khi đã có các biện pháp bảo vệ.”
Hàm ý rất rõ liên quan đến tính tự chủ của tác nhân AI và mối đe dọa tiềm tàng: Bạn càng trao cho AI nhiều độc lập, bạn càng tạo ra nhiều bề mặt tấn công. OpenAI đang xây dựng hệ thống phòng thủ, nhưng doanh nghiệp và người dùng phải chịu trách nhiệm hạn chế sự phơi nhiễm.
Thực trạng của doanh nghiệp hiện nay
Để hiểu doanh nghiệp thực sự chuẩn bị đến đâu, VentureBeat khảo sát 100 người ra quyết định kỹ thuật từ startup đến doanh nghiệp lớn. Câu hỏi đơn giản: Tổ chức của bạn đã mua và triển khai giải pháp chuyên dụng cho lọc prompt và phát hiện lạm dụng chưa?
Chỉ 34,7% trả lời có. 65,3% còn lại nói không hoặc không thể xác nhận.
Con số này có ý nghĩa. Nó cho thấy phòng thủ prompt injection không còn là khái niệm mới; nó là một danh mục sản phẩm đang được triển khai. Nhưng thị trường này vẫn còn rất sớm. Gần hai phần ba tổ chức đang vận hành AI mà không có biện pháp bảo vệ chuyên dụng, thay vào đó dựa vào biện pháp mặc định của mô hình, chính sách nội bộ hoặc đào tạo người dùng.
Trong số các tổ chức không có biện pháp phòng thủ chuyên dụng, phản ứng chủ yếu về việc mua sắm trong tương lai là sự không chắc chắn. Hầu hết không thể đưa ra lộ trình thời gian hoặc quyết định rõ ràng. Tín hiệu đáng chú ý nhất không phải là thiếu giải pháp, mà là sự do dự. Nhiều tổ chức dường như đang triển khai AI nhanh hơn việc chính thức hóa cách bảo vệ nó.
Dữ liệu không giải thích được lý do áp dụng chậm – dù là do hạn chế ngân sách, ưu tiên cạnh tranh, triển khai chưa trưởng thành hay niềm tin rằng biện pháp hiện có là đủ. Nhưng nó làm rõ một điều: việc áp dụng AI đang vượt xa sự sẵn sàng về bảo mật AI.
Vấn đề bất đối xứng
Cách tiếp cận phòng thủ của OpenAI tận dụng lợi thế mà hầu hết doanh nghiệp không có. Họ có quyền truy cập “hộp trắng” vào chính mô hình của mình, hiểu biết sâu về hệ thống phòng thủ và năng lực tính toán để chạy mô phỏng tấn công liên tục. Công cụ tấn công tự động của họ có “quyền truy cập đặc quyền vào log lý luận… của hệ thống phòng thủ,” mang lại “lợi thế bất đối xứng, làm tăng khả năng vượt mặt các đối thủ bên ngoài.”
Các doanh nghiệp triển khai tác nhân AI hoạt động với bất lợi đáng kể. Trong khi OpenAI tận dụng quyền truy cập hộp trắng và mô phỏng liên tục, hầu hết tổ chức làm việc với mô hình hộp đen và tầm nhìn hạn chế vào quá trình lý luận của tác nhân. Rất ít tổ chức có nguồn lực cho cơ sở hạ tầng red-teaming tự động. Sự bất đối xứng này tạo ra vấn đề ngày càng trầm trọng: Khi tổ chức mở rộng triển khai AI, khả năng phòng thủ của họ vẫn dậm chân tại chỗ.
Các nhà cung cấp phòng thủ prompt injection bên thứ ba đang cố gắng lấp đầy khoảng trống này. Nhưng tỷ lệ áp dụng vẫn thấp. 65,3% tổ chức không có biện pháp phòng thủ chuyên dụng đang hoạt động dựa trên bất kỳ biện pháp bảo vệ tích hợp nào từ nhà cung cấp mô hình, cộng với tài liệu chính sách và đào tạo nhận thức.
Bài đăng của OpenAI đã chỉ rõ: ngay cả biện pháp phòng thủ tinh vi cũng không thể đưa ra đảm bảo tuyệt đối.
Điều các CISO nên rút ra
Thông báo của OpenAI không thay đổi mô hình đe dọa; nó xác thực mô hình đó. Prompt injection là có thật, tinh vi và vĩnh viễn. Công ty triển khai tác nhân AI tiên tiến nhất vừa nói với lãnh đạo bảo mật rằng hãy mong đợi mối đe dọa này tồn tại vô thời hạn.
Ba hệ quả thực tiễn:
- Mức độ tự chủ của tác nhân càng lớn, bề mặt tấn công càng lớn. Hướng dẫn của OpenAI về việc tránh prompt rộng và hạn chế quyền truy cập áp dụng vượt ra ngoài Atlas. Bất kỳ tác nhân AI nào có quyền hạn rộng và truy cập hệ thống nhạy cảm đều tạo ra sự phơi nhiễm tương tự. Như Forrester đã lưu ý, AI tạo sinh là một tác nhân gây hỗn loạn. Nhận định này hóa ra rất tiên tri dựa trên kết quả thử nghiệm của OpenAI.
- Phát hiện quan trọng hơn ngăn chặn. Nếu phòng thủ tuyệt đối là không thể, thì khả năng quan sát trở nên quan trọng. Tổ chức cần biết khi nào tác nhân hành xử bất thường, không chỉ hy vọng biện pháp bảo vệ sẽ hiệu quả.
- Quyết định mua hay tự xây đang hiện hữu. OpenAI đang đầu tư mạnh vào red-teaming tự động và huấn luyện đối kháng. Hầu hết doanh nghiệp không thể sao chép điều này. Câu hỏi là liệu công cụ bên thứ ba có thể thu hẹp khoảng cách không, và liệu 65,3% tổ chức không có biện pháp phòng thủ chuyên dụng sẽ hành động trước khi sự cố xảy ra hay không.
Điểm mấu chốt
OpenAI đã nói ra điều các chuyên gia bảo mật thực hành đã biết: Prompt injection là mối đe dọa vĩnh viễn. Công ty thúc đẩy mạnh mẽ nhất về AI tác nhân đã xác nhận rằng “chế độ tác nhân… mở rộng bề mặt tấn công bảo mật” và việc phòng thủ đòi hỏi đầu tư liên tục, không phải biện pháp sửa chữa một lần.
34,7% tổ chức đang chạy biện pháp phòng thủ chuyên dụng không miễn nhiễm, nhưng họ được định vị để phát hiện tấn công khi chúng xảy ra. Ngược lại, phần lớn tổ chức đang dựa vào biện pháp bảo vệ mặc định và tài liệu chính sách thay vì biện pháp chuyên dụng. Nghiên cứu của OpenAI cho thấy rõ rằng ngay cả biện pháp phòng thủ tinh vi cũng không thể đưa ra đảm bảo tuyệt đối – nhấn mạnh rủi ro của cách tiếp cận đó.
Thông báo của OpenAI tuần này nhấn mạnh điều dữ liệu đã cho thấy: khoảng cách giữa triển khai AI và bảo vệ AI là có thật – và đang mở rộng. Chờ đợi đảm bảo tuyệt đối không còn là chiến lược khả thi. Các lãnh đạo bảo mật cần hành động phù hợp.
Tham khảo thêm các gợi ý ChatGPT sáng tạo nội dung hay nhất của tôi.
Tags: Prompt Injection, Bảo mật AI, OpenAI AtlasPrompt Injection, Bảo mật AI, OpenAI Atlas






