Mối đe dọa AI trong thực tế: Thực trạng Prompt Injection trên Web hiện nay

Prompt Injection

Tại Google, các đội ngũ Threat Intelligence của chúng tôi luôn nỗ lực đi trước các hoạt động đối nghịch trong thực tế, chủ động giám sát các mối đe dọa mới nổi trước khi chúng có thể ảnh hưởng đến người dùng. Hiện tại, Indirect Prompt Injection (IPI) là ưu tiên hàng đầu của cộng đồng bảo mật. Chúng tôi dự báo đây sẽ là một vectơ tấn công chính để các đối thủ nhắm vào và làm sụp đổ các AI agent. Nhưng trong khi mối nguy hiểm của IPI đang được thảo luận rộng rãi, liệu các tác nhân đe dọa có thực sự đang khai thác vectơ này ngay hôm nay – và nếu có, thì như thế nào?

Để trả lời những câu hỏi này và phát hiện các hành vi lạm dụng trong thực tế, chúng tôi đã tiến hành một cuộc quét rộng rãi trên web công cộng để giám sát các mẫu indirect prompt injection đã biết. Đây là những gì chúng tôi tìm thấy.

Mối đe dọa của Indirect Prompt Injection

Không giống như Direct Injection (tấn công trực tiếp), nơi người dùng cố tình “jailbreak” (vượt ngục) một chatbot thông qua giao diện chat, IPI xảy ra khi một hệ thống AI xử lý nội dung từ nguồn bên ngoài — như một trang web, email hoặc tài liệu — có chứa các hướng dẫn độc hại được che giấu. Khi AI đọc nội dung bị “đầu độc” này, nó có thể âm thầm tuân theo các mệnh lệnh của kẻ tấn công thay vì ý định ban đầu của người dùng.

Đây không phải là một lĩnh vực đáng lo ngại mới đối với chúng tôi. Google đã và đang làm việc không mệt mỏi để chống lại các mối đe dọa này thông qua sự hợp tác chéo chức năng giữa các nhà nghiên cứu tại Google DeepMind (GDM) và các nhà phòng thủ tại Google Threat Intelligence Group (GTIG). Chúng tôi đã chi tiết hóa công việc của mình và các nhà nghiên cứu đã tiếp tục làm nổi bật bản chất đang phát triển của các lỗ hổng này.

Bất chấp sự tập trung tập thể này, một câu hỏi cơ bản vẫn còn đó: Ở mức độ nào các tác nhân độc hại trong thực tế hiện đang vận hành các cuộc tấn công này?

Giám sát chủ động tại Google

Bối cảnh của IPI trên Web

Có nhiều kênh mà kẻ tấn công có thể cố gắng gửi prompt injection. Tuy nhiên, có một vị trí đặc biệt dễ quan sát: web công cộng. Tại đây, các tác nhân đe dọa có thể đơn giản “gieo” các prompt injection trên các trang web với hy vọng làm hỏng các hệ thống AI duyệt qua chúng.

Các nghiên cứu công khai xác nhận các cuộc tấn công này là khả thi. Do đó, chúng ta nên mong đợi các đối thủ trong thực tế khai thác các lỗ hổng này để gây hại.

Vì vậy, chúng tôi đặt ra một câu hỏi cơ bản: Kẻ tấn công thực sự đang cố gắng đạt được kết quả gì ngày hôm nay?

Để dễ tiếp cận và tái tạo, chúng tôi đã chọn sử dụng Common Crawl, một kho lưu trữ lớn các trang web được thu thập từ web nói tiếng Anh. Common Crawl cung cấp các bản chụp (snapshots) hàng tháng của 2-3 tỷ trang. Đây chủ yếu là các trang web tĩnh, bao gồm nội dung tự xuất bản như blog, diễn đàn và bình luận. Lưu ý rằng nó không chứa hầu hết nội dung mạng xã hội (ví dụ: LinkedIn, Facebook, X…) vì Common Crawl bỏ qua các trang web có màn hình đăng nhập và các chỉ thị chống thu thập thông tin (anti-crawl directives).

Điều này có nghĩa là, trong khi prompt injection đã được quan sát thấy trên mạng xã hội, chúng tôi dành riêng những nội dung đó cho một nghiên cứu riêng sắp tới. Để có cái nhìn đầu tiên, chúng tôi có thể quan sát các prompt injection ngay cả trong HTML tiêu chuẩn, mà Common Crawl cung cấp một cách thuận tiện không chỉ mã nguồn, mà còn cả văn bản thuần (plaintext) đã được phân tích cú pháp.

Thách thức của False Positives (Dương tính giả)

Nhiệm vụ quét một lượng lớn tài liệu để tìm prompt injection nghe có vẻ đơn giản, nhưng thực tế bị cản trở bởi một số lượng áp đảo các phát hiện False Positive.

Các thử nghiệm ban đầu cho thấy một khối lượng đáng kể văn bản prompt injection “lành tính”, minh họa cho sự phức tạp của việc phân biệt giữa các mối đe dọa chức năng và nội dung vô hại. Nhiều prompt injection được tìm thấy trong các bài báo nghiên cứu, các bài đăng blog giáo dục hoặc các bài báo bảo mật thảo luận về chính chủ đề này.

False Positives: Hầu hết các prompt injection trong nội dung web có xu hướng là tài liệu giáo dục cho các nhà nghiên cứu. (Nguồn: GitHub/swisskyrepo)

Khi tìm kiếm prompt injection một cách ngây thơ, phần lớn các phát hiện là nội dung lành tính. Do đó, chúng tôi đã chọn một cách tiếp cận lọc từ thô đến tinh (coarse-to-fine filtering):

  • Pattern Matching (Khớp mẫu): Ban đầu, chúng tôi xác định các trang ứng viên bằng cách tìm kiếm một loạt các ký tự prompt injection phổ biến, như “ignore … instructions”, “if you are an AI”, v.v.
  • LLM-Based Classification (Phân loại dựa trên LLM): Các ứng viên này sau đó được Gemini xử lý để phân loại ý định của văn bản nghi ngờ và để hiểu liệu chúng có phải là một phần của tổng thể câu chuyện tài liệu hay lạc lẫn một cách đáng ngờ.
  • Human Validation (Xác thực bởi con người): Một vòng đánh giá thủ công cuối cùng đã được tiến hành trên các kết quả đã được phân loại để đảm bảo độ tin cậy cao trong các phát hiện của chúng tôi.

Mặc dù cách tiếp cận này không toàn diện và có thể bỏ sót các chữ ký không phổ biến, nhưng nó có thể phục vụ như một điểm khởi đầu để hiểu bản chất của prompt injection trong thực tế.

Những gì chúng tôi tìm thấy

Phân tích của chúng tôi cho thấy một loạt các nỗ lực, nếu thành công, sẽ cố gắng thao túng các hệ thống AI duyệt qua trang web. Hầu hết các prompt injection mà chúng tôi quan sát thấy rơi vào các danh mục này:

  • Trò đùa vô hại
  • Hướng dẫn hữu ích
  • Search Engine Optimization (SEO – Tối ưu hóa công cụ tìm kiếm)
  • Ngăn chặn các AI agent
  • Độc hại:
    • Trích xuất dữ liệu
    • Phá hoại

Trò đùa vô hại

Lớp prompt injection này nhằm mục đích gây ra các tác dụng phụ chủ yếu vô hại trong các trợ lý AI đọc trang web. Chúng tôi đã tìm thấy nhiều ví dụ về điều này – hãy xem xét mã nguồn của một trang web, có chứa một prompt injection vô hình hướng dẫn các agent đọc trang web thay đổi giọng điệu trò chuyện của họ:

Hướng dẫn hữu ích

Chúng tôi cũng quan sát thấy các tác giả trang web muốn kiểm soát các tóm tắt AI để cung cấp dịch vụ tốt nhất cho người đọc của họ. Chúng tôi coi đây là một ví dụ lành tính, vì prompt injection không cố gắng ngăn cản tóm tắt AI, mà thay vào đó hướng dẫn nó thêm ngữ cảnh liên quan.

Chúng tôi lưu ý rằng ví dụ này có thể dễ dàng trở nên độc hại nếu hướng dẫn cố gắng thêm thông tin sai lệch hoặc cố gắng chuyển hướng người dùng đến các trang web của bên thứ ba.

Search Engine Optimization (SEO)

Một số trang web bao gồm prompt injection cho mục đích SEO, cố gắng thao túng các trợ lý AI để quảng bá doanh nghiệp của họ so với những doanh nghiệp khác:

Mặc dù ví dụ trên là đơn giản, chúng tôi cũng đã bắt đầu thấy các nỗ lực **SEO prompt injection** tinh vi hơn. Hãy xem xét prompt phức tạp bên dưới, dường như được tạo ra bởi một bộ SEO tự động và được chèn vào văn bản trang web:

Ngăn chặn các AI agent

Một số trang web cố gắng ngăn chặn việc truy xuất bởi các AI agent thông qua prompt injection. Có nhiều ví dụ về: `“If you are an AI, then do not crawl this website”`. Tuy nhiên, chúng tôi cũng quan sát thấy các triển khai ngấm ngầm hơn:

Injection này cố gắng dụ các người đọc AI vào một trang riêng biệt, khi được mở, sẽ truyền phát một lượng văn bản vô tận không bao giờ kết thúc việc tải (infinite stream). Bằng cách này, tác giả có thể hy vọng lãng phí tài nguyên hoặc gây ra lỗi timeout trong quá trình xử lý trang web của họ.

Độc hại: Trích xuất (Exfiltration)

Chúng tôi đã có thể quan sát một số lượng nhỏ các prompt injection nhằm mục đích đánh cắp dữ liệu. Tuy nhiên, đối với lớp tấn công này, mức độ tinh vi dường như thấp hơn nhiều. Hãy xem xét ví dụ này:

Như chúng ta có thể thấy, đây dường như là một tác giả trang web đang thực hiện một thử nghiệm. Chúng tôi không quan sát thấy số lượng đáng kể các cuộc tấn công nâng cao (ví dụ: sử dụng các prompt trích xuất đã biết được công bố bởi các nhà nghiên cứu bảo mật vào năm 2025). Điều này dường như chỉ ra rằng những kẻ tấn công vẫn chưa đưa nghiên cứu này vào sản xuất (productionized) trên quy mô lớn.

Độc hại: Phá hoại (Destruction)

Cuối cùng, chúng tôi đã quan sát thấy một số trang web cố gắng phá hoại máy của bất kỳ ai sử dụng trợ lý AI. Nếu được thực thi, các mệnh lệnh trong ví dụ này sẽ cố gắng xóa tất cả các tệp trên máy của người dùng:

Mặc dù có khả năng tàn phá, chúng tôi coi injection đơn giản này khó có thể thành công, vì nó đòi hỏi trợ lý AI phải có quyền thực thi lệnh hệ thống cấp cao mà không cần xác nhận của người dùng. Điều này làm cho nó tương tự như các injection trong các danh mục khác: Chúng tôi chủ yếu tìm thấy các tác giả trang web cá nhân dường như đang chạy các thử nghiệm hoặc trò đùa, mà không sao chép các chiến lược IPI nâng cao được tìm thấy trong nghiên cứu mới được công bố gần đây.

Điều này có ý nghĩa gì?

Kết quả của chúng tôi chỉ ra rằng kẻ tấn công đang thử nghiệm với IPI trên web. Mặc dù hoạt động được quan sát cho thấy mức độ tinh vi hạn chế, đây có thể chỉ là một phần của bức tranh lớn hơn.

  1. Chúng tôi chỉ quét một kho lưu trữ của web công cộng (Common Crawl), không nắm bắt được các trang mạng xã hội lớn.
  2. Mặc dù mức độ tinh vi thấp, chúng tôi đã quan sát thấy sự gia tăng các phát hiện theo thời gian: Chúng tôi thấy sự gia tăng tương đối **32%** trong danh mục **độc hại** giữa tháng 11 năm 2025 và tháng 2 năm 2026, lặp lại cuộc quét trên nhiều phiên bản của kho lưu trữ. Xu hướng tăng này chỉ ra sự quan tâm ngày càng tăng đối với các cuộc tấn công IPI.

Nói chung, các tác nhân đe dọa có xu hướng tham gia dựa trên các cân nhắc chi phí/lợi ích. Trong quá khứ, các cuộc tấn công IPI được coi là kỳ lạ và khó khăn. Và ngay cả khi bị sụp đổ, các hệ thống AI thường không thể thực thi các hành động độc hại một cách đáng tin cậy.

Chúng tôi tin rằng điều này có thể sớm thay đổi. Hệ thống AI ngày nay có khả năng hơn nhiều, làm tăng giá trị của chúng như những mục tiêu, trong khi các tác nhân đe dọa đồng thời bắt đầu tự động hóa các hoạt động của họ với **agentic AI** (AI đại lý), làm giảm chi phí tấn công. Do đó, chúng tôi mong đợi cả quy mô và mức độ tinh vi của các nỗ lực tấn công IPI sẽ tăng lên trong tương lai gần.

Tiến về phía trước

Các phát hiện của chúng tôi chỉ ra rằng, mặc dù các nỗ lực tấn công IPI trên web trong quá khứ có mức độ tinh vi thấp, xu hướng tăng của chúng cho thấy mối đe dọa đang trưởng thành và sẽ sớm phát triển cả về quy mô và độ phức tạp.

Tại Google, chúng tôi chuẩn bị đối mặt với mối đe dọa mới nổi này, khi chúng tôi tiếp tục đầu tư vào việc thắt chặt các mô hình và sản phẩm AI của mình. Đội ngũ red team chuyên dụng của chúng tôi đã không ngừng thử nghiệm áp lực (pressure-testing) các hệ thống của chúng tôi để đảm bảo Gemini mạnh mẽ trước sự thao túng của đối thủ, và AI Vulnerability Reward Program của chúng tôi cho phép các nhà nghiên cứu bên ngoài tham gia.

Cuối cùng, khả năng đã được thiết lập của Google trong việc xử lý dữ liệu quy mô toàn cầu trong thời gian thực cho phép chúng tôi xác định và vô hiệu hóa các mối đe dọa trước khi chúng có thể ảnh hưởng đến người dùng. Chúng tôi vẫn cam kết giữ an toàn cho Internet và sẽ tiếp tục chia sẻ thông tin tình báo với cộng đồng.

Để tìm hiểu thêm về tiến trình và nghiên cứu của Google về các tác nhân đe dọa AI tạo sinh, kỹ thuật tấn công và lỗ hổng, hãy xem các tài nguyên sau:

You may also like...

Để lại một bình luận