






















요약:리트리뷰얼-액세스먼트드 재네레이션(RAG)은 점점 높은 위험성 있는 응용 프로그램의 핵심을 이루고 있지만, Confundo 스타일의 독성 공격에 취약하게 남아있다. 이는 적대적으로 최적화된 문서가 생성된 출력을 조작하는 경우이다. 기존 방어책은 독성 증거를 탐지하는 것으로 해를 막을 수 있다고 가정한다. 우리는 이 가정이 잘못되었음을 보여준다: 모델은 검색된 증거에서 모순을 탐지할 수 있지만, 여전히 독성 주장에 따라 행동할 수 있다. 우리는 코르돔 원리를 소개한다 -- 최종 합성이 가능한 에이전트는 신뢰할 수 없는 자연어 증거에 접근하지 못한다 -- 그리고 이를 CORDON-MAS, 분할된 프레임워크를 통해 구현한다. 이 프레임워크는 증거 추출, 다양한 출처 검토, 답변 합성을 비대칭 메모리 권한을 가진 에이전트로 분리하여 이 원리를 아키텍처적으로 강제한다. 다섯 개의 BEIR 데이터셋에서 CORDON-MAS는 방어되지 않은 RAG에 비해 공격 성공률을 92.4% 감소시킨다. 이는 RAG 독성을 탐지 문제에서 정보 흐름 제어 문제로 재정의한다.
| 주제: | 암호학 및 보안 (cs.CR); 인공지능 (cs.AI) |
| 참조: | arXiv:2605.26754 [cs.CR] |
| (또는 arXiv:2605.26754v1 [cs.CR] 이 버전용) | |
| https://doi.org/10.48550/arXiv.2605.26754 DataCite를 통해 발행된 DOI (등록 예정) |
From: Meng Han [이메일 보기]
[v1]
화, 26 월 2026 09:27:19 UTC (1,102 KB)
이 콘텐츠는 인셔셔RSS(RSS 리더)가 자동으로 집계한 것으로 읽기 참고용입니다. 원문 출처 — 저작권은 원저작자에게 있습니다.