Adam with model exponential moving average is effective for nonconvex optimization

简介

在这项工作中，我们对两种现代优化技术进行了理论分析，用于训练大型和复杂的模型：（i）自适应优化算法，如Adam，以及（ii）模型指数移动平均值（EMA）。具体而言，我们证明了带有模型EMA的Adam的剪切版本在各种非凸优化设置中实现了最优收敛速率，包括平滑和非平滑情况。此外，当规模在不同坐标轴上显着变化时，我们证明了Adam的坐标适应性在可证明上是有利的。值得注意的是，与先前对Adam的分析不同，我们的分析关键依赖于其核心要素-动量和折扣因子-以及模型EMA，这激励了它们在实践中的广泛应用。
图表
解决问题

本论文旨在分析两种现代优化技术（自适应优化算法和模型指数移动平均EMA），并证明使用剪裁版本的Adam算法和模型EMA可以在各种非凸优化设置中实现最优收敛速度，包括平滑和非平滑情况。此外，在不同坐标轴上尺度显著变化的情况下，Adam算法的坐标适应性被证明是有优势的。
关键思路

本论文的关键思路是使用剪裁版本的Adam算法和模型EMA来实现最优收敛速度，同时证明Adam算法的坐标适应性在不同尺度变化下是有优势的。
其它亮点

本论文的亮点包括：使用剪裁版本的Adam算法和模型EMA可以在各种非凸优化设置中实现最优收敛速度；Adam算法的坐标适应性在不同尺度变化下是有优势的；论文使用了不同的数据集和实验设计来验证其结论；相关的代码已经开源。
相关研究

在这个领域中，最近的相关研究包括：On the Convergence of Adam and Beyond；A Closer Look at Memorization in Deep Networks；Accelerating Stochastic Gradient Descent for Least Squares Regression and Support Vector Machines等。

Adam with model exponential moving average is effective for nonconvex optimization

评论