





















摘要:表意工程常以终端或汇聚表征所提静态方向,刻画拒斥之状。吾等叩问,此观是否遗却拒斥于层-词位间构建之理。藉因果溯寻,吾等识得《拒斥轨迹》:稀疏上游激活之态,虽攻如GCG压制终端拒斥之讯,此态常存。据此观,吾等立SALO(稀疏激活定位算子),轻巧白箱之探,施于选定层窗之原始隐态体。于Qwen、Llama、Mistral诸模,SALO于固定XSTest校准之操作点,于数攻族中提升越狱探查之效。吾等复析静态RepE式基线、ROI敏感性、自适应GCG攻、编码输入之边界例,明拒斥轨迹监控之期许与局限。
| 评语: | 入选第四十三届机器学习国际会议(ICML 2026)。定稿版本 |
| 主题: | 密码学与安全(cs.CR);人工智能(cs.AI);计算语言学(cs.CL);机器学习(cs.LG) |
| 引用格式: | arXiv:2605.02958 [cs.CR] |
| (或 arXiv:2605.02958v2 [cs.CR] 于此版本) | |
| https://doi.org/10.48550/arXiv.2605.02958 arXiv所颁DOI经DataCite核发 |
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。