惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Cloudbric
Cloudbric
E
Exploit-DB.com RSS Feed
SecWiki News
SecWiki News
Forbes - Security
Forbes - Security
N
News | PayPal Newsroom
S
Security @ Cisco Blogs
Schneier on Security
Schneier on Security
V
V2EX - 技术
S
Secure Thoughts
W
WeLiveSecurity
Google DeepMind News
Google DeepMind News
C
CERT Recently Published Vulnerability Notes
NISL@THU
NISL@THU
S
Securelist
S
Security Archives - TechRepublic
Know Your Adversary
Know Your Adversary
V
Vulnerabilities – Threatpost
Security Latest
Security Latest
Recent Commits to openclaw:main
Recent Commits to openclaw:main
G
GRAHAM CLULEY
H
Hacker News: Front Page
Microsoft Azure Blog
Microsoft Azure Blog
I
Intezer
Google Online Security Blog
Google Online Security Blog
美团技术团队
阮一峰的网络日志
阮一峰的网络日志
T
The Exploit Database - CXSecurity.com
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Webroot Blog
Webroot Blog
Jina AI
Jina AI
Engineering at Meta
Engineering at Meta
P
Proofpoint News Feed
The Cloudflare Blog
I
InfoQ
L
LangChain Blog
U
Unit 42
P
Proofpoint News Feed
S
Schneier on Security
S
Security Affairs
Y
Y Combinator Blog
T
Tenable Blog
N
News and Events Feed by Topic
MyScale Blog
MyScale Blog
量子位
Google DeepMind News
Google DeepMind News
Cyberwarzone
Cyberwarzone
博客园 - 聂微东
D
Darknet – Hacking Tools, Hacker News & Cyber Security
GbyAI
GbyAI
AWS News Blog
AWS News Blog

博客园 - bonelee

最近2年前沿的agent智能体安全前沿技术研究 最近2年前沿的LLM推理安全前沿技术研究 最近2年前沿的RAG安全前沿技术研究 大模型安全:共享 GPU 本地内存泄露 大模型安全:提示注入(Prompt Injection) AI Agent 安全:RAG 数据投毒 AI Agent 安全:MCP 工具相关安全威胁 AI Agent 安全:输入操纵攻击 AI Agent 安全:非预期远程代码执行(RCE)与代码注入攻击 大模型安全:模型窃取 大模型安全:安全大模型的部署环境威胁 大模型安全:模型加载过程的代码执行 AI大模型里的供应链攻击和典型案例 通过投毒打破模型输出长度限制实现DOS的方法——DENIAL-OF-SERVICE POISONING ATTACKS ON LARGE LANGUAGE MODELS 大模型微调后原有能力下降如何解决? 多智能体安全——Multi-Agent Security Tax: Trading Security and Collaboration 智能体安全——Multi-Agent LLM Collaboration: A Comprehensive Survey 智能体安全——LLM-KG Framework for Robot Intention Prediction 文章要点总结 智能体安全—— intent detection in the age of llms 文章要点总结
AI Agent 安全:生成内容不可追溯(水印窃取与擦除)
bonelee · 2025-12-02 · via 博客园 - bonelee

AI Agent 安全:生成内容不可追溯(水印窃取与擦除)

1. 威胁概览

2. 威胁描述

攻击者通过向 AI 系统反复提交精心构造的输入,收集大量带水印的输出响应,利用统计分析或优化方法(如混合整数规划)逆向还原水印生成机制及密钥,进而清除或篡改水印,导致 AI 生成内容无法被有效溯源或追踪。

3. 威胁场景

  • AI 系统在输出文本中嵌入不可见水印(用于版权保护、内容溯源或滥用检测);
  • 攻击者具备对 AI 推理接口的多次访问权限(如公开 API);
  • 水印机制未对查询频率或输入模式进行有效限制。

4. 威胁触发条件

5. 缓解措施

管理措施
  • 限制查询频率:对单个用户或 IP 的 API 调用次数设置阈值,防止水印样本被大量收集;
  • 水印密钥轮换:定期更换水印生成密钥,降低长期逆向风险;
  • 输入多样性监控:检测异常输入模式(如高度重复或结构化试探性输入)。
技术措施(补充建议)
  • 引入随机化水印:在水印嵌入过程中加入动态随机因子,提高逆向难度;
  • 水印-模型联合训练:将水印机制与模型生成过程深度耦合,避免解耦攻击;
  • 输出扰动审计:对疑似被擦除水印的文本进行异常检测。

6. 威胁案例

  • 研究团队:ETH Zurich Martin Vechev 教授、悉尼大学 Zhang Zhaoxi 等
  • 论文标题
    • Watermark Stealing in Large Language Models
    • Large Language Model Watermark Stealing With Mixed Integer Programming
  • 发表时间:2024 年
  • 核心发现
    • 提出通过黑盒查询 + 优化算法(如混合整数规划, MIP)从 LLM 输出中窃取水印密钥
    • 成功在多种主流水印方案(如 Aaronson 系水印)上实现高精度密钥恢复
    • 可进一步擦除水印伪造他人水印,破坏内容溯源机制。
  • 论文链接https://arxiv.org/pdf/2402.19361

总结:当前主流 LLM 水印方案在开放 API 场景下面临严重的逆向与擦除风险。仅依赖水印无法保障生成内容的可追溯性,需结合访问控制、动态密钥、行为审计等纵深防御策略。