Skip to content

Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs

grok-3-latest
Score: 0.86
Published: at 18:48

Summary: 本文通过实证分析揭示了大型语言模型推理长度与正确性之间的非线性关系,并通过长度偏好优化实验提出了一种在无监督条件下减少生成长度的有效方法,为自适应推理研究提供了新视角。

Keywords: LLM, Reasoning, Chain of Thought, Sampling, Preference Optimization

Authors: Jinyan Su, Jennifer Healey, Preslav Nakov, Claire Cardie

Institution(s): Cornell University, Adobe Research, MBZUAI

Problem Background

大型语言模型(LLMs)在推理任务中常被优化为生成较长的推理链(Chain-of-Thought, CoT),以提升性能,但过长的推理可能导致‘过度思考’(Overthinking),引入错误,而对较难问题则可能‘思考不足’(Underthinking),未能生成足够推理步骤。 论文旨在系统研究推理长度与答案正确性之间的关系,揭示模型对问题难度误判导致的长度不适应性问题,并探索优化生成长度以平衡准确性和效率的方法。

Method

Experiment

Further Thoughts

论文揭示了模型对问题难度的感知和推理长度自适应调整的不足,启发我们可以通过引入难度预测模块或动态终止机制增强模型的自我评估能力;此外,长度偏好优化在无监督条件下的成功应用,提示可以在无标签数据场景中进一步探索简单的偏好训练策略;另一个发散性思考是,是否可以通过多模型协作或分层推理,让小模型快速处理易题,大模型深度推理难题,实现计算资源的动态分配。