惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Cloudbric
Cloudbric
E
Exploit-DB.com RSS Feed
SecWiki News
SecWiki News
Forbes - Security
Forbes - Security
N
News | PayPal Newsroom
S
Security @ Cisco Blogs
Schneier on Security
Schneier on Security
V
V2EX - 技术
S
Secure Thoughts
W
WeLiveSecurity
Google DeepMind News
Google DeepMind News
C
CERT Recently Published Vulnerability Notes
NISL@THU
NISL@THU
S
Securelist
S
Security Archives - TechRepublic
Know Your Adversary
Know Your Adversary
V
Vulnerabilities – Threatpost
Security Latest
Security Latest
Recent Commits to openclaw:main
Recent Commits to openclaw:main
G
GRAHAM CLULEY
H
Hacker News: Front Page
Microsoft Azure Blog
Microsoft Azure Blog
I
Intezer
Google Online Security Blog
Google Online Security Blog
美团技术团队
阮一峰的网络日志
阮一峰的网络日志
T
The Exploit Database - CXSecurity.com
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Webroot Blog
Webroot Blog
Jina AI
Jina AI
Engineering at Meta
Engineering at Meta
P
Proofpoint News Feed
The Cloudflare Blog
I
InfoQ
L
LangChain Blog
U
Unit 42
P
Proofpoint News Feed
S
Schneier on Security
S
Security Affairs
Y
Y Combinator Blog
T
Tenable Blog
N
News and Events Feed by Topic
MyScale Blog
MyScale Blog
量子位
Google DeepMind News
Google DeepMind News
Cyberwarzone
Cyberwarzone
博客园 - 聂微东
D
Darknet – Hacking Tools, Hacker News & Cyber Security
GbyAI
GbyAI
AWS News Blog
AWS News Blog

博客园 - bonelee

最近2年前沿的agent智能体安全前沿技术研究 最近2年前沿的LLM推理安全前沿技术研究 最近2年前沿的RAG安全前沿技术研究 大模型安全:共享 GPU 本地内存泄露 大模型安全:提示注入(Prompt Injection) AI Agent 安全:生成内容不可追溯(水印窃取与擦除) AI Agent 安全:MCP 工具相关安全威胁 AI Agent 安全:输入操纵攻击 AI Agent 安全:非预期远程代码执行(RCE)与代码注入攻击 大模型安全:模型窃取 大模型安全:安全大模型的部署环境威胁 大模型安全:模型加载过程的代码执行 AI大模型里的供应链攻击和典型案例 通过投毒打破模型输出长度限制实现DOS的方法——DENIAL-OF-SERVICE POISONING ATTACKS ON LARGE LANGUAGE MODELS 大模型微调后原有能力下降如何解决? 多智能体安全——Multi-Agent Security Tax: Trading Security and Collaboration 智能体安全——Multi-Agent LLM Collaboration: A Comprehensive Survey 智能体安全——LLM-KG Framework for Robot Intention Prediction 文章要点总结 智能体安全—— intent detection in the age of llms 文章要点总结
AI Agent 安全:RAG 数据投毒
bonelee · 2025-12-02 · via 博客园 - bonelee

AI Agent 安全:RAG 数据投毒

1. 威胁概览

2. 威胁场景

  • 场景 1:多 Agent 共享生态中的蠕虫传播
    多个互联的生成式 AI Agent(如自动邮件回复系统)共享数据或上下文。攻击者通过一个被攻陷的 Agent 注入“对抗性自复制提示”,该提示被其他 Agent 读取后自动复制并传播,类似计算机蠕虫。
  • 场景 2:RAG 知识库被恶意输入污染
    用户提交的 Prompt 或附件(文本/图像)被 Agent 存入 RAG 数据库。攻击者构造恶意输入,毒化知识库,后续查询将触发错误或有害响应。

3. 威胁触发条件

4. 缓解措施

技术措施
  • 隔离与最小共享原则:避免多个 Agent 共享 Prompt 或 RAG 数据库;若必须共享,需严格访问控制。
  • RAG 更新安全机制
    • 禁止实时/自动更新 RAG 内容,或引入审核队列;
    • 对新增内容进行完整性校验、重复检测、对抗样本过滤。
  • 模型鲁棒性增强
    • 对抗训练(Adversarial Training);
    • 模型输出监控与异常检测;
    • 多模态输入沙箱化处理(如图像 OCR 后二次过滤)。
管理措施
  • 数据源认证:仅允许来自可信、认证来源的数据进入 RAG 知识库。
  • 定期审计:对 RAG 内容进行周期性扫描,检测隐藏代码、投毒文本或异常模式。
  • 日志与溯源:记录所有写入 RAG 的数据来源,支持攻击回溯。

5. 威胁案例(对抗性自复制蠕虫)

  • 论文名称"Morris II: The First AI Worm – Prompt Injection Attacks on Generative AI Ecosystems"
  • 发表时间:2024 年(康奈尔大学)
  • arXiv 链接https://arxiv.org/pdf/2403.02817
  • 攻击方式
    1. 图像投毒(Zero-Click):将自复制提示嵌入邮件附件图像 → 云端多模态模型(如 Gemini、LLaVA)自动解析 → 输出相同提示 → 发送垃圾邮件。
    2. 文本投毒 + RAG 污染:向基于 RAG 的邮件助手发送含恶意提示的邮件 → 恶意内容存入 RAG → 后续查询触发数据泄露或越狱行为。
  • 测试模型:Gemini Pro、ChatGPT-4、LLaVA
  • 攻击效果:成功实现跨 Agent 传播、敏感信息窃取、垃圾邮件分发。

6. 案例分析(RAG 投毒研究综述)

总结:RAG 数据投毒已从理论走向实践,结合自复制 Prompt 与多 Agent 架构,可形成具备传播能力的 AI 蠕虫。防御需从 数据源头治理、模型鲁棒性、系统架构隔离 三方面协同入手。

如需将此内容导出为 Markdown 表格、PPT 或安全白皮书格式,可进一步告知。

posted @ 2025-12-02 17:11  bonelee  阅读(465)  评论()    收藏  举报