Why Transformers Need Adam: A Hessian Perspective

简介

SGD在Transformers上的表现明显不如Adam，但原因尚不清楚。本研究通过Hessian的视角提供了SGD在Transformers上失败的解释：(i) Transformers是“异质”的：参数块之间的Hessian谱差异巨大，我们称之为“块异质性”现象；(ii) 异质性阻碍了SGD：SGD在具有块异质性的问题上表现不佳。为了验证异质性阻碍了SGD，我们检查了各种Transformers、CNNs、MLPs和二次问题，并发现SGD在没有块异质性的问题上表现良好，但在存在异质性时表现不佳。我们的初步理论分析表明，SGD失败是因为它对所有块应用了一个单一的学习率，无法处理块之间的异质性。如果我们能像Adam设计的那样为不同的块分配不同的学习率，就可以挽救这种失败。
图表
解决问题

SGD在Transformers上表现不如Adam，原因在于什么？
关键思路

SGD在处理具有“块异质性”的问题时表现不佳，因为它使用相同的学习率处理所有块，而不能处理块之间的异质性。
其它亮点

论文通过对Hessian的分析解释了SGD在Transformers上的失败。作者发现Transformers具有“块异质性”，即参数块之间的Hessian谱差异巨大。作者还验证了SGD在处理具有块异质性的问题时表现不佳，但在没有块异质性的问题上表现良好。论文提出，如果能够为不同的块分配不同的学习率，就可以解决SGD的失败。
相关研究

最近的相关研究包括：《Adam: A Method for Stochastic Optimization》、《On the Convergence of Adam and Beyond》、《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》等。

Why Transformers Need Adam: A Hessian Perspective

评论