Skip to content

RM-R1: Reward Modeling as Reasoning

grok-3-latest
Score: 0.83
Published: at 06:11

Summary: 本文提出 RM-R1 模型家族,通过将奖励建模转化为推理任务,利用蒸馏和强化学习显著提升了奖励模型的解释性和性能,超越了更大规模的开源和商业模型。

Keywords: LLM, Reward Modeling, Reasoning, Distillation, RLHF

Authors: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

Institution(s): University of Illinois Urbana-Champaign, University of California, San Diego, Texas A&M University, Stevens Institute of Technology

Problem Background

奖励模型(Reward Model, RM)在通过人类反馈的强化学习(RLHF)中对大型语言模型(LLM)的对齐至关重要,但传统标量奖励模型(Scalar RM)输出不透明,缺乏解释性,而生成式奖励模型(Generative RM)虽能生成文本判断,但推理过程往往浅显,难以应对复杂的偏好任务。 论文的出发点在于探索是否能将奖励建模转化为推理任务,通过引入深层推理能力提升通用领域奖励模型的解释性和性能,以解决评估多样化和复杂性挑战。

Method

Experiment

Further Thoughts

将奖励建模转化为推理任务的范式转变令人启发,这种思路可推广至其他需要解释性的 AI 系统,如自动评估或决策支持工具;任务分类与定制化推理策略提示我们是否能进一步细化分类维度(如按难度或文化背景)以应对更复杂偏好;蒸馏与强化学习结合的训练框架也可能适用于其他生成式任务,如代码生成或多轮对话;此外,增加推理时计算预算显著提升性能的发现,启发我们在实际应用中动态调整资源以优化模型表现。