Tag: Training
All the papers with the tag "Training".
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics
grok-3-latestScore: 0.52Published: at 06:47本文提出 SOLO 框架,通过针对 EMA 更新特性的对数量化和动量调整,将优化器状态精度降低至 2 位或 3 位,同时保持接近全精度的训练性能,为资源受限环境下的 AI 研究提供可行解决方案。