






















要約:リコール拡張生成(RAG)はますます高リスクの応用に基盤を成しているが、Confundoスタイルの汚染に対して脆弱であり続けている。敵対的に最適化された文書が生成出力を操作する。既存の防御策は、汚染された証拠を検知することで害を防ぐと仮定している。私たちはこの仮定が正しくないことを示した:モデルには監視制御ギャップが存在し——検索された証拠の矛盾を検知できるにもかかわらず、汚染された主張に従う——それを示している。私たちはCordon原則——最終的な合成が可能なエージェントは信頼できない自然言語証拠にアクセスできない——を導入し、CORDON-MASという分離されたフレームワークを通じて実現する。これは証拠抽出、クロスソース監査、回答合成を非対称メモリ特権を持つエージェントに分離することで、この原則を構造的に強制する。BEIRデータセットの5つで、CORDON-MASは未保護のRAGに対して攻撃成功率を92.4%削減した。これはRAG汚染を検知問題から情報フロー制御問題へ再定義する。
| 科目: | 暗号化とセキュリティ (cs.CR); 人工知能 (cs.AI) |
| 引用: | arXiv:2605.26754 [cs.CR] |
| (または arXiv:2605.26754v1 [cs.CR] このバージョン用) | |
| https://doi.org/10.48550/arXiv.2605.26754 DataCiteを通じてarXiv発行のDOI(登録保留中) |
送信者: Meng Han [メールアドレスを表示]
[v1]
木, 26 5月 2026 09:27:19 UTC (1,102 KB)
このコンテンツは慣性聚合(RSSリーダー)によって自動集約されています。参考としてご覧ください。 原文出典 — 著作権は原著者に帰属します。