Tag: Evaluation Framework
All the papers with the tag "Evaluation Framework".
am-ELO: A Stable Framework for Arena-based LLM Evaluation
grok-3-latestScore: 0.47Published: at 12:28本文提出 am-ELO 框架,通过最大似然估计和标注者能力建模,显著提升了大型语言模型竞技场评估中 ELO 评分系统的稳定性和准确性。
Beyond the model: Key differentiators in large language models and multi-agent services
grok-3-latestScore: 0.60Published: at 09:15本文通过系统综述,揭示了生成式 AI 从模型中心向生态系统中心转变的趋势,总结了数据质量、计算效率、延迟优化、评估框架和数据管理等关键差异化因素,为 AI 服务优化提供了全面参考。