Các nhà nghiên cứu cảnh báo các đặc vụ AI vẫn không thể ngăn chặn các cuộc tấn công tiêm nhiễm kịp thời

Tóm lại

Các nhà nghiên cứu nhận thấy các tác nhân AI được cung cấp bởi GPT-5 và Gemini không thể chống lại các cuộc tấn công tiêm nhiễm kịp thời.
Các cuộc tấn công trực tiếp đã thành công hơn 79% trong khi các cuộc tấn công ẩn được nhúng vào nội dung web thường xuyên thao túng hành vi của tác nhân.
Các phát hiện cho thấy việc tiêm kịp thời vẫn là một vấn đề bảo mật rộng hơn khi các tác nhân AI trở nên phổ biến hơn.

Khi các nhà phát triển chạy đua triển khai các tác nhân AI có khả năng duyệt internet, tiến hành nghiên cứu, mua sắm trực tuyến và giao dịch tiền điện tử một cách tự động, nghiên cứu mới cho thấy các hệ thống vẫn rất dễ bị tổn thương trước các cuộc tấn công tiêm nhiễm kịp thời.

Trong một cái mới học được công bố hôm thứ Năm, các nhà nghiên cứu từ Đại học Công nghệ Nanyang, ST Engineering, IBM Research và Đại học Illinois Urbana-Champaign đã phát hiện ra rằng không có tác nhân AI nào mà họ thử nghiệm có thể chống lại các cuộc tấn công tiêm nhiễm kịp thời một cách nhất quán.

Các nhà nghiên cứu viết: “Các tiêu chuẩn bảo mật hiện tại áp dụng quan điểm tập trung vào tấn công, tập trung vào tính khả thi về mặt kỹ thuật của việc tiêm chích trong khi xem xét sự phân bổ các sắc thái của các tác hại gây ra”. “Tuy nhiên, trên thực tế, rủi ro bị tiêm nhiễm kịp thời phụ thuộc vào nạn nhân: một lần khai thác duy nhất có thể tạo ra hậu quả không cân xứng cho các bên liên quan khác nhau và cùng một kiểu tấn công có thể cho thấy hiệu quả khác nhau đáng kể tùy thuộc vào đối tượng mà nó nhắm tới.”

tiêm nhắc nhở xảy ra khi kẻ tấn công nhúng các hướng dẫn ẩn vào nội dung mà đặc vụ AI gặp phải, khiến nó đi theo chỉ dẫn của kẻ tấn công thay vì của người dùng. Để giải quyết những lỗ hổng trong đánh giá tác nhân AI hiện có, các nhà nghiên cứu đã phát triển StakeBench, một tiêu chuẩn kiểm tra cách các tác nhân AI phản ứng với các cuộc tấn công tiêm nhiễm kịp thời trong môi trường trực tuyến thực tế.

“Bây giờ chúng tôi sử dụng StakeBench để mô tả các điều kiện mà lỗ hổng này được khuếch đại hoặc ngăn chặn, tập trung vào [Indirect Prompt Injection] các nhà nghiên cứu viết: “StakeBench thăm dò ba yếu tố như vậy: khoảng cách ngữ nghĩa giữa mục tiêu được đưa vào và ý định ban đầu của người dùng, tính nhất quán của các tín hiệu môi trường xung quanh và vị trí dọc theo quỹ đạo thực thi của tác nhân mà tại đó điểm chuẩn lần đầu tiên hiển thị nó với nội dung được đưa vào.”

Nhóm đã tiến hành 3.168 mô phỏng cuộc tấn công bằng NanoBrowser và BrowserUse với GPT-5 và Gemini 2.5-Flash. Các nhà nghiên cứu nhận thấy các cuộc tấn công tiêm trực tiếp nhanh chóng đã thành công hơn 79% trên tất cả các cấu hình được thử nghiệm và các cuộc tấn công gián tiếp đạt tỷ lệ thành công từ 41,67% đến 68,16%.

Nghiên cứu được đưa ra khi các cuộc tấn công tiêm nhiễm tức thời ngày càng trở nên phổ biến và các tác nhân AI sinh sôi nảy nở.

Vào tháng 2, các nhà nghiên cứu của Microsoft cảnh báo các hướng dẫn ẩn được nhúng trong liên kết tóm tắt AI có thể ảnh hưởng đến hành vi của chatbot. Vào tháng 4, Google tài liệu các cuộc tấn công tiêm nhắc nhanh chóng ẩn trong các trang web cố gắng thao túng các tác nhân AI để rò rỉ thông tin xác thực hoặc gửi thanh toán. Gần đây hơn, Microsoft tiết lộ một lỗ hổng chèn nhanh trong Hành động Claude Code GitHub của Anthropic có thể làm lộ thông tin xác thực của người dùng.

Nghiên cứu cũng xác định cái mà các nhà nghiên cứu gọi là “ký sinh lén lút”, trong đó một tác nhân AI hoàn thành nhiệm vụ của người dùng đồng thời thúc đẩy mục tiêu của kẻ tấn công. Ví dụ: hành vi ký sinh lén lút gây ra bởi một cuộc tấn công tiêm nhiễm kịp thời có thể ảnh hưởng một cách tinh tế đến các đề xuất sản phẩm, hướng người dùng đến một mặt hàng cụ thể mà không có bất kỳ dấu hiệu rõ ràng nào cho thấy hệ thống đã bị xâm phạm.

Họ viết: “Những kết quả này chỉ ra rằng bảo mật tiêm nhắc nhanh trong các tác nhân web có thể triển khai không phải là thuộc tính vô hướng của mô hình xương sống mà là sự phân bổ tác hại mà việc nhận ra tác hại được xác định chung bởi các bên liên quan bị ảnh hưởng, sự liên kết ngữ nghĩa giữa mục tiêu được tiêm và nhiệm vụ của người dùng cũng như bối cảnh kiến trúc trong đó xương sống được triển khai”.

Bản tin tóm tắt hàng ngày

Bắt đầu mỗi ngày với những tin tức hàng đầu ngay bây giờ, cùng với các tính năng độc đáo, podcast, video và hơn thế nữa.