Skip to content

What do Language Model Probabilities Represent? From Distribution Estimation to Response Prediction

grok-3-latest
Score: 0.79
Published: at 11:46

Summary: 本文提出一个理论框架,区分了大型语言模型输出概率的三种解释(源分布估计、目标分布估计、响应预测),并揭示了现有研究中因混淆这些分布导致的误解,为概率解释和模型设计提供了理论基础。

Keywords: LLM, Distribution Estimation, Response Prediction, Training Strategy, Inference Method

Authors: Eitan Wagner, Omri Abend

Institution(s): Hebrew University of Jerusalem

Problem Background

随着大型语言模型(LLMs)的使用从传统的分布估计(模拟语言数据生成分布)转向响应预测(生成符合用户期望的‘正确’回答),输出概率的解释出现了分歧。 论文旨在厘清这些概率在不同任务和设置下的含义,解决因混淆不同分布目标(如源分布估计、目标分布估计和响应预测)而导致的实验结果误解问题。

Method

Experiment

Further Thoughts

论文启发我们重新思考LLM输出概率的多维度性,是否可以设计自适应机制让模型根据任务类型动态调整输出分布?例如,在高准确率问答任务中倾向响应预测分布,而在创意写作中更接近分布估计;此外,是否可以通过模块化设计解耦训练与推理过程,或通过显式概率报告改进模型在事件分布场景中的校准能力?