Scaling Exponents Across Parameterizations and Optimizers

2024年07月08日
  • 简介
    本文旨在提出一种新的参数化视角,探究了之前研究中关于参数和数据之间对齐的关键假设,并在更广泛的优化器和更弱的假设下推导出新的理论结果,以实现从小到大宽度的模型的强大和有效的缩放,通常需要精确调整许多算法和架构细节,例如参数化和优化器选择。我们的广泛实证研究包括数万个模型的训练,涵盖三种优化器、四种参数化、多种对齐假设、十多个学习率和十四种模型大小(高达26.8B参数)的所有组合。我们发现,在之前的研究假设中,最佳学习率缩放方案通常会被排除在外。我们的结果表明,所有参数化方法,而不仅仅是最大更新参数化(muP),都可以实现超参数转移;此外,我们针对标准参数化的每层学习率处方的新颖性优于muP。最后,我们展示了参数化中被忽视的一个方面,即Adam中的epsilon参数必须正确缩放,以避免梯度下降,并提出了Adam-atan2,这是一个新的数值稳定、无尺度版本的Adam,完全消除了epsilon超参数。
  • 作者讲解·1
  • 图表
  • 解决问题
    本论文旨在探究模型从小到大宽度的稳健有效缩放,以及在这个过程中需要调整的算法和架构细节。具体而言,本论文提出了一种新的参数化视角,探究了先前工作中关于参数和数据之间对齐的关键假设,并在更广泛的优化器范围内推导出新的理论结果。此外,本论文通过大量实验验证,包括使用三种优化器、四种参数化、多种对齐假设、十几种学习率和14种模型尺寸等组合训练了数万个模型。
  • 关键思路
    本论文的关键思路是探究参数化的新视角,并提出了一种新的标准参数化的逐层学习率方案,其表现优于之前的最大更新参数化(muP)方案。此外,本论文还发现了Adam优化器中epsilon参数的重要性,并提出了一种新的数值稳定、无需epsilon超参数的Adam-atan2版本。
  • 其它亮点
    本论文通过大量实验验证了各种参数化、优化器、对齐假设、学习率和模型尺寸对模型性能的影响。实验结果表明,所有参数化都可以实现超参数传递,而非最大更新参数化的逐层学习率方案表现更佳。此外,论文还提出了一种新的数值稳定的Adam优化器版本Adam-atan2,并指出epsilon参数的重要性。
  • 相关研究
    最近的相关研究主要集中在模型的缩放和优化器的改进上。例如,有研究探究了更加高效的模型缩放方法,如等比例缩放和等比例扩展。另外,也有研究提出了新的优化器,如LAMB和Ranger。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问