The Road Less Scheduled

Aaron Defazio ,
Xingyu ,
Yang ,
Harsh Mehta ,
Konstantin Mishchenko ,
Ahmed Khaled ,
Ashok Cutkosky
1953
热度
2024年05月24日
  • 简介
    现有的学习率调度方案不需要指定优化停止步骤T的表现远不如依赖于T的学习率调度方案。我们提出了一种方法,通过完全避免使用调度,避免了对这个停止时间的需求,并在一系列问题上展示了与调度相比最先进的性能,这些问题从凸问题到大规模深度学习问题不等。我们的无调度方法与带动量的标准优化器相比,没有引入额外的超参数。我们的方法是我们开发的一种新理论的直接结果,该理论统一了调度和迭代平均。我们的方法的开源实现可在https://github.com/facebookresearch/schedule_free上获得。
  • 图表
  • 解决问题
    论文旨在解决不需要指定优化停止步骤T的学习率调度方法无法与依赖于T的学习率调度方法相比的问题。
  • 关键思路
    论文提出了一种无需使用调度方法的方法,同时在一系列问题上展现出与调度方法相当的性能,包括凸问题和大规模深度学习问题。该方法没有额外的超参数,是动量标准优化器的直接结果。该方法是作者们提出的一个新理论的直接结果,该理论统一了调度和迭代平均。
  • 其它亮点
    值得关注的亮点包括:1. 该方法避免了使用调度方法,同时在多种问题上展现出了与调度方法相当的性能;2. 该方法没有额外的超参数,是动量标准优化器的直接结果;3. 该方法是作者们提出的一个新理论的直接结果,该理论统一了调度和迭代平均。作者们提供了一个开源实现(https://github.com/facebookresearch/schedule_free)。
  • 相关研究
    在这个领域中,最近的相关研究包括使用学习率调度的方法,例如StepLR和CosineAnnealingLR。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论