Skip to content

FreqKV: Frequency Domain Key-Value Compression for Efficient Context Window Extension

grok-3-latest
Score: 0.66
Published: at 14:53

Summary: 本文提出 FreqKV 方法,通过频率域中 KV 状态的低频分量保留实现高效压缩,显著扩展大型语言模型的上下文窗口,同时保持性能和降低计算与内存开销。

Keywords: LLM, Context Extension, KV Cache, Frequency Domain, Compression

Authors: Jushi Kai, Boyi Zeng, Yixuan Wang, Haoli Bai, Bo Jiang, Zhouhan Lin

Institution(s): Shanghai Jiao Tong University, Huawei Noah’s Ark Lab

Problem Background

大型语言模型(LLMs)在处理长上下文时面临内存和计算效率的挑战:KV 缓存的内存需求随上下文长度线性增长,自注意力机制的计算复杂度随序列长度呈二次方增长,导致上下文窗口扩展在微调和推理阶段变得困难;现有方法在扩展到更长上下文时往往造成性能下降,因此需要一种高效的 KV 缓存压缩方法,既能降低资源开销,又能尽量维持模型性能。

Method

Experiment

Further Thoughts

FreqKV 利用频率域能量分布进行 KV 缓存压缩的思路非常具有启发性,未来可以探索将其推广到多模态模型中的特征压缩;此外,是否可以通过动态评估 token 重要性(如基于注意力分数或语义贡献)设计自适应压缩策略?或者结合量化、稀疏化等技术进一步提升压缩效率?另外,针对不同任务特性(如历史信息或近期信息的重要性),是否可以调整压缩分布以优化性能?