Cautious Optimizers: Improving Training with One Line of Code

简介

AdamW 一直是变压器预训练的默认优化器。多年来，我们的社区一直在寻找更快、更稳定的优化器，但只取得了积极的成果。在这项工作中，我们提出了一种在 PyTorch 中对任何基于动量的优化器进行的**单行修改**，我们将这种优化器重新命名为谨慎优化器，例如 C-AdamW 和 C-Lion。我们的理论结果表明，这一修改保留了 Adam 的哈密顿函数，并且不会破坏在李雅普诺夫分析下的收敛性保证。此外，通过我们的理论洞察，揭示了一个全新的优化器家族。在这些优化器中，我们选择了最简单的一种进行实证实验，结果显示在 Llama 和 MAE 预训练中的速度提升最高可达 1.47 倍。代码可在 https://github.com/kyleliang919/C-Optim 获取。
图表
解决问题

该论文试图通过改进现有的动量优化器来提高其训练速度和稳定性，特别是在Transformer预训练任务上。这是一个持续的研究方向，但提出了一种简单且有效的单行代码修改方法。
关键思路

论文的关键思路是在任何基于动量的优化器中引入一个简单的单行代码修改，将其命名为“谨慎优化器”（Cautious Optimizer），如C-AdamW和C-Lion。这一修改保留了Adam的哈密顿函数，并且在Lyapunov分析下保证了收敛性。这种简单的方法不仅提高了优化器的性能，还揭示了一类新的优化器。
其它亮点

论文展示了C-AdamW和C-Lion在Llama和MAE预训练任务上的加速效果，最高可达1.47倍。此外，作者提供了开源代码，方便其他研究者复现和进一步探索。这些结果表明，通过简单的修改可以显著提升现有优化器的性能，为未来的研究提供了新的方向。
相关研究

近期在优化器领域，有许多相关研究，例如： 1. "RAdam: On the Variance of the Adaptive Learning Rate and Beyond" - 提出了一种新的自适应学习率优化器。 2. "Lion: A Simple and Powerful Optimizer for Machine Learning" - 提出了Lion优化器，旨在提高训练效率。 3. "AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients" - 提出了一种新的自适应优化器，通过信念机制调整步长。

Cautious Optimizers: Improving Training with One Line of Code

评论