Adam with model exponential moving average is effective for nonconvex optimization

2024年05月28日
  • 简介
    在这项工作中,我们对两种现代优化技术进行了理论分析,用于训练大型和复杂的模型:(i)自适应优化算法,如Adam,以及(ii)模型指数移动平均值(EMA)。具体而言,我们证明了带有模型EMA的Adam的剪切版本在各种非凸优化设置中实现了最优收敛速率,包括平滑和非平滑情况。此外,当规模在不同坐标轴上显着变化时,我们证明了Adam的坐标适应性在可证明上是有利的。值得注意的是,与先前对Adam的分析不同,我们的分析关键依赖于其核心要素-动量和折扣因子-以及模型EMA,这激励了它们在实践中的广泛应用。
  • 图表
  • 解决问题
    本论文旨在分析两种现代优化技术(自适应优化算法和模型指数移动平均EMA),并证明使用剪裁版本的Adam算法和模型EMA可以在各种非凸优化设置中实现最优收敛速度,包括平滑和非平滑情况。此外,在不同坐标轴上尺度显著变化的情况下,Adam算法的坐标适应性被证明是有优势的。
  • 关键思路
    本论文的关键思路是使用剪裁版本的Adam算法和模型EMA来实现最优收敛速度,同时证明Adam算法的坐标适应性在不同尺度变化下是有优势的。
  • 其它亮点
    本论文的亮点包括:使用剪裁版本的Adam算法和模型EMA可以在各种非凸优化设置中实现最优收敛速度;Adam算法的坐标适应性在不同尺度变化下是有优势的;论文使用了不同的数据集和实验设计来验证其结论;相关的代码已经开源。
  • 相关研究
    在这个领域中,最近的相关研究包括:On the Convergence of Adam and Beyond;A Closer Look at Memorization in Deep Networks;Accelerating Stochastic Gradient Descent for Least Squares Regression and Support Vector Machines等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论