Skip to content

Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach

grok-3-latest
Score: 0.83
Published: at 05:42

Summary: 本文通过校准感知微调方法(CFT 和 RCFT),结合理论状态划分和 EM 算法正则化,显著改善了偏好对齐后大型语言模型的校准性能,同时保持或提升模型准确率。

Keywords: LLM, Calibration, Fine-Tuning, Preference Alignment, Overconfidence

Authors: Jiancong Xiao, Bojian Hou, Zhanliang Wang, Ruochen Jin, Qi Long, Weijie J. Su, Li Shen

Institution(s): University of Pennsylvania

Problem Background

大型语言模型(LLMs)在经过偏好对齐(如 RLHF 或 DPO)后,虽然更符合人类价值观,但校准性能显著下降,表现为预测概率与实际准确率不匹配的过自信问题。 这种现象源于偏好崩溃(preference collapse),即模型过度偏好某一选项(无论是否正确),尤其在多选题场景中导致预期校准误差(ECE)增加,影响模型在高风险领域(如医疗、法律)的可靠性。

Method

Experiment

Further Thoughts

论文提出的可校准与不可校准状态的理论划分启发了对模型性能与校准动态关系的思考,未来可探索更细化的状态分类或引入任务类型维度指导校准策略;CFT 通过领域知识微调缓解过自信,提示是否可设计自适应知识选择机制动态调整微调数据;RCFT 的 EM 算法正则化方法展示了在优化性能同时控制校准误差的潜力,是否可扩展至其他领域(如视觉模型)或任务(如生成任务)以实现广义校准?