Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations

2024年05月28日
  • 简介
    规模已经成为获得强大机器学习模型的主要因素。因此,了解模型的规模属性对于有效设计正确的训练设置以及未来的架构至关重要。在这项工作中,我们认为,由于依赖余弦调度,规模和训练研究变得不必要地复杂,这阻止了在相同模型大小的不同长度之间进行训练。我们研究了一种直接替代方案的训练行为——恒定学习率和冷却——并发现它的规模可预测且可靠,类似于余弦。此外,我们还展示了随机权重平均可以在训练轨迹上提高性能,而不需要额外的训练成本,适用于不同的规模。重要的是,通过这些发现,我们证明了可以利用较少但可重复使用的训练运行,显著减少计算和GPU时间来进行规模实验。我们的代码可在https://github.com/epfml/schedules-and-scaling获得。
  • 图表
  • 解决问题
    本文旨在解决机器学习模型训练中的规模问题,探究不同训练设置下模型的规模属性,以及提高训练效率和性能的方法。
  • 关键思路
    本文提出了一个替代余弦调度的方案,即恒定学习率和冷却时间,发现它与余弦调度相似,可预测和可靠地扩展训练。此外,本文还证明了随机权重平均可以提高训练轨迹中的性能,而不需要额外的训练成本。
  • 其它亮点
    本文的实验设计简单有效,使用的数据集和开源代码丰富,能够显著减少计算和GPU时间,提高训练效率和性能。值得进一步研究的是,最近在这个领域中还有一些相关的研究,如《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》。
  • 相关研究
    EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论