Tag: KL Divergence
All the papers with the tag "KL Divergence".
Soft Best-of-n Sampling for Model Alignment
grok-3-latestScore: 0.71Published: at 04:03本文提出 Soft Best-of-n 采样方法,通过温度参数 λ 实现奖励优化与分布相似性的平滑权衡,并在理论上证明其以 O(1/n) 速率逼近最优倾斜分布,为大型语言模型对齐提供了一种高效且灵活的推理时策略。