






















摘要:长文语境模型受限于键值(KV)缓存之内存足迹。今有无需训练之KV压缩法,多以一重重要性信号——注意力、时新性、层级分配或键之独特性——排序令牌,然当有用语境具全局独特性、局部叙事性或即时相关性时,此法即显脆弱。吾等创制NestedKV,此键值缓存压缩法,受Nested Learning中连续体记忆系统之启发。NestedKV持存全局、区块级与滑动窗口之键锚,以多时尺度余弦异常评分令牌,并结合作成之排序,与无需训练之外层学习器,用头自适应混合与惊奇门控令牌路由相结合。其分值配以自适应每头预算,无需训练或LLM之修改。于RULER(4k--32k)、LooGLE、LongBench、LongBench-E、InfiniteBench及MMLU-Pro诸任务上,NestedKV于保留缓存甚小时最为强效。于Qwen3-4B模型,当$r=0.75$时,其在RULER上较KeyDiff增19.10分,于LongBench增19.29分;当$r=0.95$时,其在LongBench上保留37.32分,而KeyDiff仅得17.55分。
| 科目: | 计算语言学(cs.CL) |
| 引文格式: | arXiv:2605.26678 [cs.CL] |
| (或 arXiv:2605.26678v1 [cs.CL]为此版本) | |
| https://doi.org/10.48550/arXiv.2605.26678 arXiv所发DOI,经DataCite(注册待定) |
自:洪晨 [查看邮件]
[v1]
周二,公历二六六五年五月二十六日辰时八刻十三分(三九三千字节)
此內容由慣性聚合(RSS閱讀器)自動聚合整理,僅供閱讀參考。 原文來自 — 版權歸原作者所有。