Why Warmup the Learning Rate? Underlying Mechanisms and Improvements

2024年06月13日
  • 简介
    在深度学习中,通常会通过线性调度将学习率$\eta$预热,从$\eta_{\text{init}}=0$逐渐升高到预设目标$\eta_{\text{trgt}}$。本文通过使用SGD和Adam进行系统实验,展示了预热的巨大好处在于允许网络容忍更大的$\eta_{\text{trgt}}$,从而迫使网络进入更加良好条件的损失函数空间。网络能够处理更大的$\eta_{\text{trgt}}$,使得超参数调整更加稳健,同时提高了最终的性能。我们揭示了预热期间不同的操作区域,取决于训练是否处于渐进锐化或锐度降低阶段,这又取决于初始化和参数化。利用这些见解,我们展示了如何利用损失弹射机制正确选择$\eta_{\text{init}}$,这可以节省预热步骤的数量,在某些情况下甚至完全消除了预热的必要性。我们还建议了一种Adam方差的初始化方式,提供了与预热类似的好处。
  • 图表
  • 解决问题
    本论文旨在通过系统实验,探究深度学习中学习率预热的作用,发现它的主要作用是让网络能够容忍更大的目标学习率,从而提高超参数调整的鲁棒性和最终性能。
  • 关键思路
    通过探究不同的预热阶段,发现预热期间的操作可以分为渐进锐化和锐度降低两个不同的阶段,具体取决于初始化和参数化。利用这些洞见,提出了利用损失抛物线机制选择合适的初始学习率,从而减少了预热步骤的数量,在某些情况下完全消除了预热的必要性。同时,还提出了Adam方差的初始化方法,可以提供类似于预热的好处。
  • 其它亮点
    本文通过系统实验探究了学习率预热的作用,提出了利用损失抛物线机制选择合适的初始学习率的方法,可以减少预热步骤的数量,甚至完全消除预热的必要性。此外,还提出了Adam方差的初始化方法,可以提供类似于预热的好处。
  • 相关研究
    在这个领域中,最近的相关研究包括《On the Variance of the Adaptive Learning Rate and Beyond》和《Don't Decay the Learning Rate, Increase the Batch Size》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论