Skip to content

am-ELO: A Stable Framework for Arena-based LLM Evaluation

grok-3-latest
Score: 0.47
Published: at 12:28

Summary: 本文提出 am-ELO 框架,通过最大似然估计和标注者能力建模,显著提升了大型语言模型竞技场评估中 ELO 评分系统的稳定性和准确性。

Keywords: LLM, Evaluation Framework, Ranking System, Annotator Modeling, Stability

Authors: Zirui Liu, Jiatong Li, Yan Zhuang, Qi Liu, Shuanghong Shen, Jie Ouyang, Mingyue Cheng, Shijin Wang

Institution(s): State Key Laboratory of Cognitive Intelligence, University of Science and Technology of China, Institute of Artificial Intelligence, Hefei Comprehensive National Science Center, iFLYTEK Co., Ltd

Problem Background

大型语言模型(LLMs)的竞技场式评估(Arena-based Evaluation)是当前模型比较的重要范式,但传统 ELO 评分系统存在显著的不稳定性问题,主要源于算法对数据顺序的敏感性(导致评分不一致)和对标注者能力差异的忽视(引入偏见),从而降低了评估结果的可信度和实用性,尤其在高风险决策(如模型部署)中可能带来误导。

Method

Experiment

Further Thoughts

标注者能力建模的概念可扩展至其他主观性评估场景(如众包任务),通过量化个体差异提升结果可靠性;MLE 替代迭代更新的思路启发在动态评分系统中引入全局优化方法;异常标注者过滤机制结合主动学习(Active Learning)可动态优化标注者选择,为构建高质量评估数据集提供新思路。