Skip to content

Learning Dynamics in Continual Pre-Training for Large Language Models

grok-3-latest
Score: 0.77
Published: at 17:47

Summary: 本文提出一个 CPT 缩放法则,通过解耦分布偏移和学习率退火的影响,量化持续预训练过程中损失变化规律,并预测任意训练步骤下的性能表现,为超参数优化提供指导。

Keywords: LLM, Continual Pre-Training, Scaling Law, Distribution Shift, Learning Rate Annealing

Authors: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng

Institution(s): School of Artificial Intelligence, University of Chinese Academy of Sciences, State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences, Ritzz-AI

Problem Background

持续预训练(Continual Pre-Training, CPT)是大型语言模型(LLMs)适应特定下游领域任务的重要方法,但现有研究缺乏对 CPT 过程中学习动态(Learning Dynamics)的量化分析,尤其是在通用领域和下游领域性能随训练步骤变化的规律性描述。 论文旨在解决这一问题,通过验证损失(Validation Loss)追踪性能变化,提出一个 CPT 缩放法则(CPT Scaling Law),以预测任意训练步骤下的损失值,并优化 CPT 过程中的超参数设置。

Method

Experiment

Further Thoughts

论文提出的‘损失潜力’(Loss Potential)概念非常有启发性,是否可以通过动态选择预训练模型的退火状态(即不同损失潜力)来优化 CPT 效果?未来可以探索自适应策略,根据下游任务需求选择合适的 PT 模型状态;此外,分布偏移项与模型大小和转移起点无关的特性提示,是否可以通过直接度量数据集分布距离(如 KL 散度)来预测分布偏移大小,从而减少实验成本?