ScheduleFree+: Scaling Learning-Rate-Free & Schedule-Free Learning to Large Language Models

向作者提问

NEW

简介

“无调度学习”（Schedule-Free Learning）作为一种实用的任意时刻训练方法，在机器学习领域已展现出广阔前景，在数十个标准基准任务上均取得了成功。然而，其在大语言模型（LLM）训练中的优异表现迄今仅在较小规模上得到验证。我们识别出若干关键改进措施，以支撑该方法向更大批量和更大模型规模扩展，并据此提出一种既无需学习率调优、也无需任何学习率调度策略的新方法——“增强型无调度学习”（ScheduleFree+），用于训练大语言模型；该方法性能显著优于传统的“预热–稳定–衰减”（Warmup-Stable-Decay, WSD）调度策略。此外，我们还证实，“无调度学习”在长时间训练场景下效果最为突出：当训练量达到每参数1000个token时，其性能较当前最优调度策略提升达31%。“无调度学习”还为预训练阶段采用模型平均（model averaging）与检查点融合（checkpoint merging）等技术提供了坚实的理论基础。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何将Schedule-Free Learning有效扩展到大规模语言模型（LLM）训练，克服其在大batch size和大模型规模下性能下降的问题；此前该方法仅在小规模模型上验证成功，尚未解决实际预训练场景中的可扩展性瓶颈。
关键思路

提出ScheduleFree+——一种完全无需学习率调优、无需学习率调度、且内置自适应动量校正与梯度缩放机制的方法；核心创新在于修正了原始Schedule-Free在大尺度训练中因梯度方差放大导致的优化不稳定问题，并理论证明了模型平均在长时预训练中的本质优势。
其它亮点

在1000 tokens/parameter超长训练预算下相对SOTA调度（如WSD）提升31%；支持任意batch size扩展（实验验证至32k）；首次在百亿参数级LLM上实现Schedule-Free端到端预训练；开源代码与复现实验配置；理论揭示模型平均等价于隐式正则化与泛化提升机制，为checkpoint merging提供新依据。
相关研究

Schedule-Free Learning (ICML 2024); LION: Low-Rank Optimizer for Large Language Models (NeurIPS 2023); AdaScale: Adaptive Learning Rates for Distributed Training (ICLR 2021); DeepSpeed-ZeRO Optimizations (OSDI 2020); The Step Decay Lie: On the Effectiveness of Learning Rate Schedules in Pretraining (ACL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问