Skip to content

Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving

grok-3-latest
Score: 0.69
Published: at 17:23

Summary: 本文通过ZeroTIR框架,揭示了Agent RL Scaling Law,验证了基础LLM可通过强化学习自发学习代码执行工具,显著提升数学推理能力。

Keywords: LLM, Reinforcement Learning, Tool Integration, Mathematical Reasoning, Scaling Law

Authors: Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Yingying Zhang, Wenqiang Zhang

Institution(s): Fudan University, Xiaohongshu, East China Normal University

Problem Background

大型语言模型(LLMs)在数学推理任务中面临挑战,尤其是在需要精确计算和多步推理的场景下,模型常因依赖概率预测而非计算正确性导致结果不可靠。 现有方法如监督微调(SFT)依赖高质量数据,易过拟合且缺乏泛化能力;工具集成推理(TIR)通常需要预定义提示或触发机制,缺乏自主性。 本文旨在解决如何通过强化学习(RL),让基础LLM在无监督工具使用示例的情况下,自发学习利用外部工具(如Python代码执行)来提升数学问题解决能力。

Method

Experiment

Further Thoughts

Agent RL Scaling Law的发现启发了我思考工具使用学习是否具有通用规律,是否可以扩展到其他工具(如搜索、计算器)或多任务场景,让模型自发选择最合适的工具组合。 此外,模型倾向于少量高效代码调用的现象提示我们可以在训练初期限制交互次数以提升效率,后期动态调整上限探索复杂策略;还可以探索如何通过多任务RL训练,让模型在不同领域(如数学、编程、常识推理)中自适应工具选择。