Overflow Prevention Enhances Long-Context Recurrent LLMs

Summary: 本文提出 OPRM，一种训练无关的推理方法，通过分块处理缓解循环模型内存溢出问题，显著提升长上下文任务性能，并保持亚二次方复杂度优势。

Keywords: LLM, Long Context, Recurrent Models, Memory Overflow, Inference Optimization

Authors: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes

Institution(s): Tel Aviv University, IBM Research, MIT CSAIL, Xero

Problem Background

大型语言模型（LLMs）中的循环架构（recurrent LLMs）在处理长上下文任务时，因固定大小的循环内存（fixed-size recurrent memory）限制而面临内存溢出（memory overflow）问题，导致无法充分利用长上下文信息，性能低于预期；论文旨在解决这一瓶颈，提升循环模型在长上下文任务中的表现，并质疑其是否真正捕捉长距离依赖关系。

Method

核心思想：提出 OPRM（Overflow Prevention for Recurrent Models），一种训练无关的推理方法，通过将长上下文分块处理，避免内存溢出，同时保持循环模型的亚二次方复杂度优势。
具体实现：
- 分块策略（Chunking Strategy）：将输入上下文分割为固定大小的块（chunk size 作为超参数），确保每个块的信息量不超过模型内存容量，减少溢出风险。
- 推测性预填充（Speculative Prefill）：并行处理每个分块，计算每个块的状态（state）和初始输出概率分布，为后续选择提供依据，降低计算复杂度。
- 选择性解码（Selective Decoding）：基于熵（entropy-based）或概率（probability-based）标准，从预填充结果中选择最相关的块进行自回归解码；同时引入 IDK Filter（I Don’t Know Filter），通过识别并过滤不相关块（如预测‘Error’的块），提高选择准确性。
设计原则：基于自然语言的局部性（locality）假设，优先处理局部信息，同时通过推测性处理提升效率；方法无需额外训练，直接集成到推理流程中，适用于多种循环模型。
效率优化：分块并行处理将预填充复杂度从 O(Lb log Lb) 降至 O(bL log L)，且支持预计算上下文状态以加速实时查询处理。

Experiment

性能提升：OPRM 在多个循环模型和长上下文基准测试中表现出显著改进，例如在 LongBench 上，Falcon3-Mamba-Inst-7B 提升 14%，Falcon-Mamba-Inst-7B 提升 28%，RecurrentGemma-IT-9B 提升 50%，RWKV6-Finch-7B 提升 51%；在 LongBench v2 上，Falcon3-Mamba-Inst-7B + OPRM 达到 30.8 分，创同规模模型新纪录。
上下文长度相关性：随着上下文长度增加（例如 8K+），OPRM 的性能优势更明显，表明其在超长上下文任务中的潜力。
上下文扩展能力：在上下文扩展任务（如 Needle-in-a-Haystack）中，OPRM 将上下文长度扩展至训练长度的 256 倍，优于专用方法（如 DeciMamba 的 64 倍）。
实验设置合理性：实验覆盖多种任务（问答、摘要、代码补全等）、数据集（LongBench, LongBench v2）和模型，设置全面；消融实验验证了分块选择标准（如 min entropy）和 IDK Filter 的有效性。
效率表现：OPRM 在长上下文（如 128K tokens）时，推理时间和内存占用均优于基线，体现了分块并行处理的计算优势。

Further Thoughts

OPRM 的分块推理策略不仅适用于循环模型，也可能启发 Transformer 等架构通过分块减少内存占用；其内存-召回权衡控制（通过调整 chunk size）可扩展至资源受限场景；此外，论文对循环模型长距离依赖能力的质疑，可能推动未来研究探索更有效的全局信息聚合机制；训练无关方法的成功也提示推理阶段优化有巨大潜力，值得探索更多轻量级解决方案。