Skip to content

On the Robustness of Reward Models for Language Model Alignment

grok-3-latest
Score: 0.63
Published: at 06:48

Summary: 本文揭示了奖励模型过优化的根源在于隐藏状态范数分散,并提出批次和为零正则化(BSR)方法,显著提升了奖励模型的分布鲁棒性和 RLHF 对齐效果。

Keywords: LLM, Reward Model, RLHF, Over-Optimization, Regularization

Authors: Jiwoo Hong, Noah Lee, Eunki Kim, Woojin Chung, Guijin Son, Aman Gupta, Shao Tang, James Thorne

Institution(s): KAIST AI, OneLineAI, LinkedIn Corporation

Problem Background

奖励模型(Reward Models, RMs)是强化学习与人类反馈(RLHF)中用于对齐大型语言模型(LLMs)与人类偏好的关键组件,通常基于 Bradley-Terry (BT) 模型训练。然而,BT 模型训练的奖励模型容易过拟合训练数据,导致在未见输入分布上的泛化能力下降,即过优化问题。这种过优化不仅影响奖励模型的准确性,还会向下游 RLHF 过程传播,削弱语言模型的对齐效果。论文指出,过优化的主要原因是隐藏状态范数(hidden state norms)的过度分散,导致奖励分数异常放大,引发过自信问题。

Method

Experiment

Further Thoughts

BSR 的正则化思路启发我们关注模型内部表示的稳定性,而不仅仅是预测准确性。未来可以探索动态调整正则化强度(例如根据训练阶段或数据分布特性调整 λ)以进一步优化效果;此外,是否可以对隐藏状态直接施加正则化,或设计跨批次的约束机制?BSR 与其他过优化缓解方法(如奖励模型集成或数据增强)的结合也可能带来更强的鲁棒性。