Daily Paper Machine

Tag: Variance Minimization

All the papers with the tag "Variance Minimization".

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL
grok-3-latest
Score: 0.58
Published:2025年5月5日 at 06:26
#LLM, #Chain of Thought, #Sampling, #Variance Minimization, #Reinforcement Learning
本文提出GVM-RAFT方法，通过动态采样分配策略最小化梯度方差，显著提升大型语言模型在链式思维推理任务中的训练效率和性能。