惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Cloudbric
Cloudbric
E
Exploit-DB.com RSS Feed
SecWiki News
SecWiki News
Forbes - Security
Forbes - Security
N
News | PayPal Newsroom
S
Security @ Cisco Blogs
Schneier on Security
Schneier on Security
V
V2EX - 技术
S
Secure Thoughts
W
WeLiveSecurity
Google DeepMind News
Google DeepMind News
C
CERT Recently Published Vulnerability Notes
NISL@THU
NISL@THU
S
Securelist
S
Security Archives - TechRepublic
Know Your Adversary
Know Your Adversary
V
Vulnerabilities – Threatpost
Security Latest
Security Latest
Recent Commits to openclaw:main
Recent Commits to openclaw:main
G
GRAHAM CLULEY
H
Hacker News: Front Page
Microsoft Azure Blog
Microsoft Azure Blog
I
Intezer
Google Online Security Blog
Google Online Security Blog
美团技术团队
阮一峰的网络日志
阮一峰的网络日志
T
The Exploit Database - CXSecurity.com
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Webroot Blog
Webroot Blog
Jina AI
Jina AI
Engineering at Meta
Engineering at Meta
P
Proofpoint News Feed
The Cloudflare Blog
I
InfoQ
L
LangChain Blog
U
Unit 42
P
Proofpoint News Feed
S
Schneier on Security
S
Security Affairs
Y
Y Combinator Blog
T
Tenable Blog
N
News and Events Feed by Topic
MyScale Blog
MyScale Blog
量子位
Google DeepMind News
Google DeepMind News
Cyberwarzone
Cyberwarzone
博客园 - 聂微东
D
Darknet – Hacking Tools, Hacker News & Cyber Security
GbyAI
GbyAI
AWS News Blog
AWS News Blog

博客园 - bonelee

最近2年前沿的agent智能体安全前沿技术研究 最近2年前沿的LLM推理安全前沿技术研究 最近2年前沿的RAG安全前沿技术研究 大模型安全:共享 GPU 本地内存泄露 大模型安全:提示注入(Prompt Injection) AI Agent 安全:生成内容不可追溯(水印窃取与擦除) AI Agent 安全:RAG 数据投毒 AI Agent 安全:MCP 工具相关安全威胁 AI Agent 安全:输入操纵攻击 AI Agent 安全:非预期远程代码执行(RCE)与代码注入攻击 大模型安全:模型窃取 大模型安全:安全大模型的部署环境威胁 大模型安全:模型加载过程的代码执行 AI大模型里的供应链攻击和典型案例 通过投毒打破模型输出长度限制实现DOS的方法——DENIAL-OF-SERVICE POISONING ATTACKS ON LARGE LANGUAGE MODELS 大模型微调后原有能力下降如何解决? 智能体安全——Multi-Agent LLM Collaboration: A Comprehensive Survey 智能体安全——LLM-KG Framework for Robot Intention Prediction 文章要点总结 智能体安全—— intent detection in the age of llms 文章要点总结
多智能体安全——Multi-Agent Security Tax: Trading Security and Collaboration
bonelee · 2025-07-12 · via 博客园 - bonelee

Multi-Agent Security Tax: Trading Security and Collaboration

该文本探讨了多智能体系统中大型语言模型(LLMs)的安全性,特别是恶意指令如何像蠕虫一样在系统中传播。文章通过模拟自动化化学研究设施,展示了当单个代理被攻击时,恶意指令可以感染其他代理,导致系统故障(例如实验室爆炸)。研究评估了四种防御策略:两种“疫苗”方法(在代理记忆中植入虚假的安全处理恶意输入的记忆)和两种通用安全指令策略。研究发现,这些防御措施虽然能有效减少恶意指令的传播和执行,但也可能降低代理之间的协作能力,揭示了安全性与协作效率之间潜在的权衡。

多智能体系统安全性研究要点总结

随着AI智能体在复杂任务中的广泛应用,确保多智能体系统的安全性 成为亟需关注的核心议题。本研究聚焦于恶意提示在多智能体系统中的传播机制 及其防御策略,揭示了系统安全与协作效率之间的潜在权衡。

一、核心问题与风险

1. 安全威胁背景

  • 随着多智能体系统在复杂任务中的部署增加,系统性安全风险 也随之上升。
  • 攻击者可能通过妥协单个智能体 ,利用其传播恶意指令,腐蚀整个系统 ,最终导致错误或破坏性结果。

2. 恶意提示的多跳传播

  • 传染性恶意提示 可在智能体之间传播,类似于传统数字系统中的蠕虫攻击 。
  • 攻击方式:通过向LLM智能体的输入中注入恶意指令 ,引导其执行有害行为。
  • 后果:恶意指令可能在整个系统中扩散,导致系统范围的智能体被全面控制 。

3. 类比现实威胁

  • 此类攻击模式对数字基础设施构成系统性安全风险 ,类似于Stuxnet病毒攻击工业控制系统 的事件。

4. LLM的脆弱性

  • LLM模型容易受到“越狱 ”攻击,即通过对抗性提示绕过安全机制。
  • 攻击类型包括:
    • 直接提示注入 :攻击者直接向智能体输入恶意指令;
    • 间接提示注入 :通过第三方或环境间接注入恶意内容。

5. 级联故障风险

  • 实验表明,恶意提示可触发“多米诺效应” ,一个智能体被攻陷可能导致整个系统失效。

二、防御策略及其评估

1. 防御策略概览

研究评估了以下几种防御机制,以减轻恶意提示传播的风险:

2. 疫苗方法

  • 被动疫苗 :智能体对恶意输入仅作简单拒绝。
  • 主动疫苗 :智能体不仅拒绝恶意输入,还主动向其他智能体发送警报,阻止传播。

3. 通用安全指令

  • 被动指令 :提示智能体警惕可疑信息。
  • 主动指令 :鼓励智能体采取对抗性行为,阻止恶意传播。

4. 实验验证

  • 实验场景 :模拟一个由7个智能体组成的自主化学研究设施 ,由AI项目经理Atlas 监督。
  • 攻击目标 :通过恶意指令引导智能体执行危险化学反应,导致爆炸。
  • 结果 :所有防御策略均能降低恶意指令传播概率 ,但对协作效率有不同程度的影响。

三、关键发现:安全与协作的权衡

1. 安全提升与协作下降的矛盾

  • 所有防御策略都能提高系统鲁棒性 ,但也不同程度地降低智能体协作能力 。
  • 主动疫苗 在保持协作性方面表现最佳:
    • 系统鲁棒性从76.7%提升至90% ;
    • 协作接受率维持在87.6% ,接近无防御状态。
  • 基于指令的防御 虽然提高鲁棒性,但显著降低协作性:
    • 对 gpt-4o-2024-08-06 模型:
      • 被动指令使接受率从91.7%降至26.1% ;
      • 主动指令降至16.7% 。

2. 模型差异

  • GPT-4-mini 模型表现最脆弱:
    • 无防御时鲁棒性仅为50.0% ;
    • 被动疫苗对其防御效果有限。

3. 评估指标反思

  • 当前研究将智能体对指令的依从性 作为协作效率的代理指标,可能与真实协作效率存在偏差。
  • 强调:在评估防御策略时,应同时考虑系统鲁棒性 与协作性能 ,以避免忽视潜在副作用。

四、研究贡献与局限性

1. 主要贡献

  • 首次实证验证 恶意提示在多智能体LLM系统中的传播;
  • 提出并评估了新型防御策略,如“疫苗”方法;
  • 揭示了安全机制与协作效率之间的权衡关系 ;
  • 提供了关于多智能体系统安全性的实证数据与实验框架。

2. 局限性

  • 场景受限 :仅在自主化学实验室 这一特定环境中进行测试;
  • 攻击类型单一 :仅测试了导致化学爆炸的恶意干预 ;
  • 恶意提示样本有限 :仅使用了12个原始恶意提示 (尽管传播过程中产生了变体);
  • 评估指标局限 :使用指令依从性 作为协作代理指标,可能不完全反映真实协作效率;
  • 攻击与防御方法基础 :未引入最新的对抗攻击或防御技术。

五、总结

本研究表明,恶意提示在多智能体LLM系统中具有高度传染性 ,可能引发系统性安全事件。通过实证研究,揭示了不同防御策略在提升系统安全性与影响协作效率之间的权衡关系 。