Skip to content

RM-R1: Reward Modeling as Reasoning

grok-3-latest
Score: 0.83
Published: at 06:11

Summary: 本文提出将奖励建模作为推理任务的范式,通过推理链蒸馏和强化学习训练 RM-R1 模型,显著提升了奖励模型的解释性和性能,超越了更大规模的开源和闭源模型。

Keywords: LLM, Reward Modeling, Reasoning, Distillation, Reinforcement Learning

Authors: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

Institution(s): University of Illinois Urbana-Champaign, University of California, San Diego, Texas A&M University, Stevens Institute of Technology

Problem Background

奖励模型(Reward Models, RMs)在大型语言模型(LLMs)的对齐中至关重要,特别是在通过人类反馈的强化学习(RLHF)中,用于提供准确的奖励信号以指导模型优化。 然而,现有奖励模型存在显著缺陷:标量奖励模型(Scalar RMs)仅输出数值分数,缺乏解释性;生成式奖励模型(Generative RMs)虽有推理痕迹,但推理过程往往肤浅,难以应对复杂的偏好判断任务。 论文提出一个核心问题:能否将奖励建模转化为推理任务,通过引入深思熟虑的推理过程来提升模型的解释性和性能?

Method

Experiment

Further Thoughts

将奖励建模转化为推理任务的范式非常新颖,启发我们思考是否可以将其他监督任务(如分类、回归)也重构为生成式推理任务,以提升解释性和性能;此外,任务分类驱动的定制化推理策略提示我们可以在模型设计中引入任务感知机制,根据输入特性动态调整处理流程;蒸馏与 RL 协同训练的思路也可能适用于其他复杂推理任务,如代码生成或数学求解,值得进一步探索。