






















요약: 긴 맥락 언어 모델은 키-값 (KV) 캐시의 메모리 푸인트로 제한됩니다. 기존의 훈련 없는 KV 압축 방법은 보통 토큰을 중요도 신호 하나로 순위를 매겨 — 주의, 최신성, 레이어별 할당, 키의 독특성 — 이 신호가 유용한 맥락이 전역적으로 독특하거나 지역적으로 에피소드적이거나 즉각적으로 관련될 때 취약해집니다. 저희는 NestedKV를 소개합니다. Nested Learning의 Continuum Memory System에서 영감을 받은 키만을 사용하는 KV 캐시 압축 방법입니다. NestedKV는 전역, 블록 수준, 슬라이딩 윈도우 키 앵커를 유지하며, 다수의 시간 스케일 코사인 이상으로 토큰을 평가하고, 결과 순위를 훈련 없는 외부 학습기와 헤드 적응 혼합 및 놀라움 게이트 토큰 라우팅을 사용하여 결합합니다. 점수는 적응형 헤드별 예산과 짝지어지며 훈련이나 LLM 수정이 필요 없습니다. RULER (4k--32k), LooGLE, LongBench, LongBench-E, InfiniteBench, MMLU-Pro에서 Qwen3과 Llama-3.2 모델에서 NestedKV는 유지된 캐시가 작을 때 가장 강력합니다. Qwen3-4B에서 $r=0.75$일 때 RULER에서 KeyDiff보다 최대 19.10점, LongBench에서 19.29점 향상을 이뤘으며, $r=0.95$일 때 LongBench에서 37.32를 유지했고 KeyDiff은 17.55을 기록했습니다.
| 주제: | 컴퓨테이션과언어(cs.CL) |
| 참조: | arXiv:2605.26678 [cs.CL] |
| (또는 arXiv:2605.26678v1 [cs.CL] 이 버전용) | |
| https://doi.org/10.48550/arXiv.2605.26678 DataCite를 통해 발행된 arXiv DOI (등록 대기 중) |
From: Hong Chen [이메일 보기]
[v1]
화, 26 5월 2026 08:14:39 UTC (393 KB)
이 콘텐츠는 인셔셔RSS(RSS 리더)가 자동으로 집계한 것으로 읽기 참고용입니다. 원문 출처 — 저작권은 원저작자에게 있습니다.