RM-R1: Reward Modeling as Reasoning

Summary: 本文提出 RM-R1 模型家族，通过将奖励建模转化为推理任务，利用蒸馏和强化学习显著提升了奖励模型的解释性和性能，超越了更大规模的开源和商业模型。

Keywords: LLM, Reward Modeling, Reasoning, Distillation, RLHF

Authors: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

Institution(s): University of Illinois Urbana-Champaign, University of California, San Diego, Texas A&M University, Stevens Institute of Technology

Problem Background

奖励模型（Reward Model, RM）在通过人类反馈的强化学习（RLHF）中对大型语言模型（LLM）的对齐至关重要，但传统标量奖励模型（Scalar RM）输出不透明，缺乏解释性，而生成式奖励模型（Generative RM）虽能生成文本判断，但推理过程往往浅显，难以应对复杂的偏好任务。论文的出发点在于探索是否能将奖励建模转化为推理任务，通过引入深层推理能力提升通用领域奖励模型的解释性和性能，以解决评估多样化和复杂性挑战。

Method

核心思想: 将奖励建模作为推理任务，通过生成结构化的推理轨迹（Reasoning Traces）增强模型对人类偏好的理解和判断能力，提出推理奖励模型（Reasoning Reward Models, REAS RMS）的新范式。
具体实现: 开发了 RM-R1 模型家族，采用两阶段训练流程：
- 蒸馏阶段（Distillation）: 从强模型（如 Claude-3.7-Sonnet 和 OpenAI-O3）合成高质量推理轨迹，对基础指令模型（如 Qwen-2.5-Instruct）进行监督微调（Supervised Fine-Tuning, SFT），以赋予初步推理能力。
- 强化学习阶段（RL with Verifiable Rewards, RLVR）: 采用群组相对策略优化（Group Relative Policy Optimization, GRPO）进行强化学习，进一步优化模型的推理和判断能力，奖励函数基于正确性（Correctness）设计为二元奖励（+1 或 -1）。
任务分类与定制化推理: 引入‘Chain-of-Rubrics’（CoR）提示框架，将任务分为‘聊天’（Chat）和‘推理’（Reasoning）两类，针对‘聊天’任务生成评估标准（Rubrics）和理由，针对‘推理’任务则先自行解决问题再评估候选答案，确保推理过程的针对性和逻辑性。
关键创新: 不依赖简单的数值分数，而是利用语言模型的生成能力输出详细的推理过程和判断，显著提升解释性，同时通过任务分类和两阶段训练优化模型在不同领域的适应性。

Experiment

有效性: RM-R1 模型在多个基准数据集（RewardBench, RM-Bench, RMB）上取得了最先进或接近最先进的性能，例如 RM-R1-Qwen-Instruct-32B 在 RewardBench 上整体准确率达 92.9%，超越 GPT-4o（86.7%）和 Llama3.1-405B（84.1%），最高提升达 13.8%；在 RM-Bench 上，RM-R1-DeepSeek-Distilled-Qwen-32B 在数学和代码领域准确率分别达 91.8% 和 74.1%，显著优于先前最高水平。
实验设置合理性: 实验覆盖了不同规模模型（7B 到 32B）、不同训练策略（Instruct 和 DeepSeek-Distilled 基础模型）以及多个领域（聊天、安全、数学、代码），并通过消融实验验证了蒸馏、任务分类和强化学习各组件的重要性。
数据效率: RM-R1 展现出高数据效率，仅用 8.7K 样本进行蒸馏即可达到竞争性性能，而 DeepSeek-Distilled 模型使用 800K 样本，显示训练策略的高效性。
局限性: 实验未深入探讨模型在极端边缘案例或多模态任务中的表现，可能存在适用性限制。

Further Thoughts

将奖励建模转化为推理任务的范式转变令人启发，这种思路可推广至其他需要解释性的 AI 系统，如自动评估或决策支持工具；任务分类与定制化推理策略提示我们是否能进一步细化分类维度（如按难度或文化背景）以应对更复杂偏好；蒸馏与强化学习结合的训练框架也可能适用于其他生成式任务，如代码生成或多轮对话；此外，增加推理时计算预算显著提升性能的发现，启发我们在实际应用中动态调整资源以优化模型表现。