






















摘要:回收式生成 (RAG) 越來越成為高風險應用的基礎,但仍然容易受到 Confundo 式的污染,其中敵對優化的文件會操縱生成的輸出。現有的防禦假設檢測到被污染的證據就能防止危害。我們證明這個假設是錯誤的:模型展現出一種監控-控制差距——它們可以檢測到回收證據中的矛盾,但仍然會基於被污染的主張行動。我們介紹了 Cordon 原則——沒有任何能夠進行最終綜合的代理可以訪問不受信任的自然語言證據——並通過 CORDON-MAS 來實現它,CORDON-MAS 是一個分區化框架,通過將證據提取、跨來源審計和答案綜合分為具有非對稱記憶權限的代理,來在架構上強制執行這個原則。在五個 BEIR 資料集上,與未受保護的 RAG 相比,CORDON-MAS 將攻擊成功率降低了 92.4%。這將 RAG 污染問題從檢測問題重新定義為信息流控制問題。
| 主題: | 密碼學與安全 (cs.CR);人工智慧 (cs.AI) |
| 引用格式: | arXiv:2605.26754 [cs.CR] |
| (或 arXiv:2605.26754v1 [cs.CR] 為此版本) | |
| https://doi.org/10.48550/arXiv.2605.26754 由DataCite發行的arXiv DOI(待登記) |
來自:孟漢[查看郵件]
[v1]
周二,2026年5月26日 09:27:19 UTC (1,102 KB)
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。