- 简介“无调度学习”(Schedule-Free Learning)作为一种实用的任意时刻训练方法,在机器学习领域已展现出广阔前景,在数十个标准基准任务上均取得了成功。然而,其在大语言模型(LLM)训练中的优异表现迄今仅在较小规模上得到验证。我们识别出若干关键改进措施,以支撑该方法向更大批量和更大模型规模扩展,并据此提出一种既无需学习率调优、也无需任何学习率调度策略的新方法——“增强型无调度学习”(ScheduleFree+),用于训练大语言模型;该方法性能显著优于传统的“预热–稳定–衰减”(Warmup-Stable-Decay, WSD)调度策略。此外,我们还证实,“无调度学习”在长时间训练场景下效果最为突出:当训练量达到每参数1000个token时,其性能较当前最优调度策略提升达31%。“无调度学习”还为预训练阶段采用模型平均(model averaging)与检查点融合(checkpoint merging)等技术提供了坚实的理论基础。
-
- 图表
- 解决问题如何将Schedule-Free Learning有效扩展到大规模语言模型(LLM)训练,克服其在大batch size和大模型规模下性能下降的问题;此前该方法仅在小规模模型上验证成功,尚未解决实际预训练场景中的可扩展性瓶颈。
- 关键思路提出ScheduleFree+——一种完全无需学习率调优、无需学习率调度、且内置自适应动量校正与梯度缩放机制的方法;核心创新在于修正了原始Schedule-Free在大尺度训练中因梯度方差放大导致的优化不稳定问题,并理论证明了模型平均在长时预训练中的本质优势。
- 其它亮点在1000 tokens/parameter超长训练预算下相对SOTA调度(如WSD)提升31%;支持任意batch size扩展(实验验证至32k);首次在百亿参数级LLM上实现Schedule-Free端到端预训练;开源代码与复现实验配置;理论揭示模型平均等价于隐式正则化与泛化提升机制,为checkpoint merging提供新依据。
- Schedule-Free Learning (ICML 2024); LION: Low-Rank Optimizer for Large Language Models (NeurIPS 2023); AdaScale: Adaptive Learning Rates for Distributed Training (ICLR 2021); DeepSpeed-ZeRO Optimizations (OSDI 2020); The Step Decay Lie: On the Effectiveness of Learning Rate Schedules in Pretraining (ACL 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流