Skip to content

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL

grok-3-latest
Score: 0.58
Published: at 06:26

Summary: 本文提出GVM-RAFT方法,通过动态采样分配策略最小化梯度方差,显著提升大型语言模型在链式思维推理任务中的训练效率和性能。

Keywords: LLM, Chain of Thought, Sampling, Variance Minimization, Reinforcement Learning

Authors: Jiarui Yao, Yifan Hao, Hanning Zhang, Hanze Dong, Wei Xiong, Nan Jiang, Tong Zhang

Institution(s): University of Illinois Urbana-Champaign, Salesforce AI Research

Problem Background

大型语言模型(LLMs)在数学推理任务中通过链式思维(Chain-of-Thought, CoT)生成中间推理步骤以提升准确性,但传统拒绝采样微调方法(如RAFT)采用统一推理预算,无法根据提示难度和收敛行为动态分配计算资源,导致梯度估计方差高,训练效率低下。 关键问题在于如何在有限计算预算下,通过动态调整采样策略减少梯度方差,从而加速模型收敛并提升性能。

Method

Experiment

Further Thoughts

GVM通过任务难度和梯度贡献动态分配资源的思路非常具有启发性,可以进一步推广到其他领域,如多任务学习中根据任务重要性动态调整训练资源,或在个性化推荐系统中根据用户反馈调整模型更新频率;此外,是否可以通过结合上下文信息(如训练进展或任务优先级)设计自适应采样预算,进一步提升效率和泛化能力?