AI Agent 安全:RAG 数据投毒
1. 威胁概览
2. 威胁场景
- 场景 1:多 Agent 共享生态中的蠕虫传播
多个互联的生成式 AI Agent(如自动邮件回复系统)共享数据或上下文。攻击者通过一个被攻陷的 Agent 注入“对抗性自复制提示”,该提示被其他 Agent 读取后自动复制并传播,类似计算机蠕虫。
- 场景 2:RAG 知识库被恶意输入污染
用户提交的 Prompt 或附件(文本/图像)被 Agent 存入 RAG 数据库。攻击者构造恶意输入,毒化知识库,后续查询将触发错误或有害响应。
3. 威胁触发条件
4. 缓解措施
技术措施
- 隔离与最小共享原则:避免多个 Agent 共享 Prompt 或 RAG 数据库;若必须共享,需严格访问控制。
- RAG 更新安全机制:
- 禁止实时/自动更新 RAG 内容,或引入审核队列;
- 对新增内容进行完整性校验、重复检测、对抗样本过滤。
- 模型鲁棒性增强:
- 对抗训练(Adversarial Training);
- 模型输出监控与异常检测;
- 多模态输入沙箱化处理(如图像 OCR 后二次过滤)。
管理措施
- 数据源认证:仅允许来自可信、认证来源的数据进入 RAG 知识库。
- 定期审计:对 RAG 内容进行周期性扫描,检测隐藏代码、投毒文本或异常模式。
- 日志与溯源:记录所有写入 RAG 的数据来源,支持攻击回溯。
5. 威胁案例(对抗性自复制蠕虫)
- 论文名称:"Morris II: The First AI Worm – Prompt Injection Attacks on Generative AI Ecosystems"
- 发表时间:2024 年(康奈尔大学)
- arXiv 链接:https://arxiv.org/pdf/2403.02817
- 攻击方式:
- 图像投毒(Zero-Click):将自复制提示嵌入邮件附件图像 → 云端多模态模型(如 Gemini、LLaVA)自动解析 → 输出相同提示 → 发送垃圾邮件。
- 文本投毒 + RAG 污染:向基于 RAG 的邮件助手发送含恶意提示的邮件 → 恶意内容存入 RAG → 后续查询触发数据泄露或越狱行为。
- 测试模型:Gemini Pro、ChatGPT-4、LLaVA
- 攻击效果:成功实现跨 Agent 传播、敏感信息窃取、垃圾邮件分发。
6. 案例分析(RAG 投毒研究综述)
总结:RAG 数据投毒已从理论走向实践,结合自复制 Prompt 与多 Agent 架构,可形成具备传播能力的 AI 蠕虫。防御需从 数据源头治理、模型鲁棒性、系统架构隔离 三方面协同入手。
如需将此内容导出为 Markdown 表格、PPT 或安全白皮书格式,可进一步告知。
posted @
2025-12-02 17:11
bonelee
阅读(465)
评论()
收藏
举报