Cautious Optimizers: Improving Training with One Line of Code

简介

AdamW 一直是变压器预训练的默认优化器。多年来，我们社区一直在寻找更快、更稳定的优化器，但仅限于能够带来积极成果的方法。在这项工作中，我们提出了一种对任何基于动量的优化器进行的 **Pytorch 中的单行修改**，并将这种优化器重新命名为谨慎优化器，例如 C-AdamW 和 C-Lion。我们的理论结果表明，这一修改保留了 Adam 的哈密顿函数，并且在李雅普诺夫分析下不会破坏收敛性保证。此外，通过我们的理论洞察，揭示了一个全新的优化器家族。在这些优化器中，我们选择了最简单的一种进行实证实验，结果显示在 Llama 和 MAE 预训练中的速度提升了高达 1.47 倍。代码可在 https://github.com/kyleliang919/C-Optim 获取。
图表
解决问题

该论文试图通过改进现有的动量优化器来提高训练速度和稳定性，特别是在大规模预训练模型如Transformer上的表现。这是一个持续关注的问题，但提出了一种简单而有效的方法来实现这一目标。
关键思路

论文的关键思路是在任何基于动量的优化器中添加一个简单的单行修改，命名为Cautious Optimizer（例如C-AdamW和C-Lion）。这种修改保留了Adam的哈密顿函数，并且在Lyapunov分析下保证了收敛性。这一思路的新颖之处在于它提供了一个简单而通用的方法，可以应用于多种优化器，而不仅仅是AdamW。
其它亮点

论文的主要亮点包括：1) 理论上证明了单行修改不会破坏优化器的收敛性；2) 实验结果显示，在Llama和MAE预训练任务上，C-AdamW和C-Lion分别实现了1.47倍的加速；3) 代码已开源，方便社区复现和进一步研究。此外，论文还揭示了一整个新的优化器家族，为未来的研究提供了方向。
相关研究

近年来，关于优化器的研究非常活跃，相关工作包括：1) Lion (2023) 提出了一种结合了动量和自适应学习率的优化器；2) AdaBelief (2020) 改进了Adam的方差估计，提高了稳定性和性能；3) RAdam (2019) 提出了动态调整初始学习率的方法，以减少超参数调优的需求。这些研究都在尝试提高优化器的效率和稳定性，而Cautious Optimizer则提供了一种简单而通用的改进方法。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论