Skip to content

Scalable Chain of Thoughts via Elastic Reasoning

grok-3-latest
Score: 0.69
Published: at 15:01

Summary: 本文提出 Elastic Reasoning 框架,通过将推理分为思考和解决方案两阶段并结合预算约束训练,使大型推理模型在严格资源限制下仍能高效推理,同时降低训练成本并提升泛化能力。

Keywords: LLM, Reasoning, Test Time Scaling, Post-Training, RLHF

Authors: Yuhui Xu, Hanze Dong, Lei Wang, Doyen Sahoo, Junnan Li, Caiming Xiong

Institution(s): Salesforce AI Research

Problem Background

大型推理模型(Large Reasoning Models, LRMs)通过生成长篇推理链(Chain of Thought, CoT)在复杂任务中表现出色,但其输出长度不受控制,导致在实际部署中难以满足严格的推理时间预算(token、延迟或计算资源)限制。 现有方法在性能保持和训练成本上存在不足,特别是在预算受限时,模型性能显著下降,因此需要在资源约束下实现有效的长篇推理。

Method

Experiment

Further Thoughts

Elastic Reasoning 的 Separate Budgeting 概念启发了我思考是否可以基于任务难度设计自适应预算分配策略,例如为复杂任务动态增加思考预算;此外,Budget-Constrained Rollout 的训练方式是否可应用于对话系统或多模态任务中的资源控制;进一步地,是否可以通过多阶段预算分配(不仅仅是两阶段),实现更细粒度的推理过程优化。