The Road Less Scheduled

简介

现有的学习率调度方案不需要指定优化停止步骤T的表现远不如依赖于T的学习率调度方案。我们提出了一种方法，通过完全避免使用调度，避免了对这个停止时间的需求，并在一系列问题上展示了与调度相比最先进的性能，这些问题从凸问题到大规模深度学习问题不等。我们的无调度方法与带动量的标准优化器相比，没有引入额外的超参数。我们的方法是我们开发的一种新理论的直接结果，该理论统一了调度和迭代平均。我们的方法的开源实现可在https://github.com/facebookresearch/schedule_free上获得。
图表
解决问题

论文旨在解决不需要指定优化停止步骤T的学习率调度方法无法与依赖于T的学习率调度方法相比的问题。
关键思路

论文提出了一种无需使用调度方法的方法，同时在一系列问题上展现出与调度方法相当的性能，包括凸问题和大规模深度学习问题。该方法没有额外的超参数，是动量标准优化器的直接结果。该方法是作者们提出的一个新理论的直接结果，该理论统一了调度和迭代平均。
其它亮点

值得关注的亮点包括：1. 该方法避免了使用调度方法，同时在多种问题上展现出了与调度方法相当的性能；2. 该方法没有额外的超参数，是动量标准优化器的直接结果；3. 该方法是作者们提出的一个新理论的直接结果，该理论统一了调度和迭代平均。作者们提供了一个开源实现（https://github.com/facebookresearch/schedule_free）。
相关研究

在这个领域中，最近的相关研究包括使用学习率调度的方法，例如StepLR和CosineAnnealingLR。

评论