- 简介现有的学习率调度方案不需要指定优化停止步骤T的表现远不如依赖于T的学习率调度方案。我们提出了一种方法,通过完全避免使用调度,避免了对这个停止时间的需求,并在一系列问题上展示了与调度相比最先进的性能,这些问题从凸问题到大规模深度学习问题不等。我们的无调度方法与带动量的标准优化器相比,没有引入额外的超参数。我们的方法是我们开发的一种新理论的直接结果,该理论统一了调度和迭代平均。我们的方法的开源实现可在https://github.com/facebookresearch/schedule_free上获得。
- 图表
- 解决问题论文旨在解决不需要指定优化停止步骤T的学习率调度方法无法与依赖于T的学习率调度方法相比的问题。
- 关键思路论文提出了一种无需使用调度方法的方法,同时在一系列问题上展现出与调度方法相当的性能,包括凸问题和大规模深度学习问题。该方法没有额外的超参数,是动量标准优化器的直接结果。该方法是作者们提出的一个新理论的直接结果,该理论统一了调度和迭代平均。
- 其它亮点值得关注的亮点包括:1. 该方法避免了使用调度方法,同时在多种问题上展现出了与调度方法相当的性能;2. 该方法没有额外的超参数,是动量标准优化器的直接结果;3. 该方法是作者们提出的一个新理论的直接结果,该理论统一了调度和迭代平均。作者们提供了一个开源实现(https://github.com/facebookresearch/schedule_free)。
- 在这个领域中,最近的相关研究包括使用学习率调度的方法,例如StepLR和CosineAnnealingLR。
沙发等你来抢
去评论
评论
沙发等你来抢