Skip to content

Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics

grok-3-latest
Score: 0.52
Published: at 06:47

Summary: 本文提出 SOLO 框架,通过针对 EMA 更新特性的对数量化和动量调整,将优化器状态精度降低至 2 位或 3 位,同时保持接近全精度的训练性能,为资源受限环境下的 AI 研究提供可行解决方案。

Keywords: LLM, Optimization, Quantization, Memory Efficiency, Training

Authors: Cong Xu, Wenbin Liang, Mo Yu, Anan Liu, Ke-Yue Zhang, Lizhuang Ma, Jianyong Wang, Jun Wang, Wei Zhang

Institution(s): East China Normal University, Tencent Youtu Lab, WeChat AI, Tencent, Machine Learning Platform Department, Tencent TEG, Tsinghua University, Shanghai Innovation Institute

Problem Background

随着模型规模的快速增长,训练和微调大型模型(如大型语言模型 LLMs)的内存成本变得极为高昂,尤其是状态优化器(如 AdamW)需要维护大量辅助信息(通常是模型参数的两倍大小),导致计算资源成为研究瓶颈;论文旨在解决如何在大幅减少优化器状态内存占用的同时,尽量保持模型训练性能和收敛性,特别是在超低比特(如 2 位或 3 位)量化下避免现有方法的性能下降或训练失败问题。

Method

Experiment

Further Thoughts

SOLO 对 EMA 更新动态特性的系统性分析启发我们可以在其他优化算法中探索类似特性,设计更高效的低资源优化策略;对数量化思想可扩展至模型权重或激活值量化,优化小范围数据表示;动量调整策略提示在噪声敏感场景中动态调整优化参数以提高鲁棒性;未来可结合 SOLO 与分布式训练技术(如 ZeRO)进一步减少通信开销,或通过自适应量化级别根据训练阶段动态调整精度,平衡性能和内存。