Skip to content

What do Language Model Probabilities Represent? From Distribution Estimation to Response Prediction

grok-3-latest
Score: 0.79
Published: at 11:46

Summary: 本文通过理论框架区分了语言模型输出概率的三种解释(补全分布、响应分布、事件分布),揭示了现有研究中的混淆,为LLM的概率解释和应用提供了理论指导。

Keywords: LLM, Distribution Estimation, Response Prediction, Training Stages, Inference Strategies

Authors: Eitan Wagner, Omri Abend

Institution(s): Hebrew University of Jerusalem

Problem Background

随着大型语言模型(LLMs)的兴起,语言建模从传统的对有限长度字符串的分布估计转向了通用文本输入输出的响应预测,导致输出概率的预期分布因任务目标不同而产生冲突;本文旨在分析这种转变对概率解释的影响,并解决如何正确理解和应用这些分布以避免误解的问题。

Method

Experiment

Further Thoughts

论文提出的输出概率三种解释(补全分布、响应分布、事件分布)的区分,启发我们在设计和评估LLM时需明确任务目标,例如在问答系统中是追求准确性(响应预测)还是反映真实分布(目标分布估计);此外,显式概率报告作为获取事件概率的潜在一致方法,提示未来可探索更有效的概率表达或校准技术,以克服表达复杂分布的局限性。