Why Transformers Need Adam: A Hessian Perspective

Yushun Zhang ,
Congliang Chen ,
Tian Ding ,
Ziniu Li ,
Ruoyu Sun ,
Zhi-Quan Luo
547
热度
2024年02月26日
  • 简介
    SGD在Transformers上的表现明显不如Adam,但原因尚不清楚。本研究通过Hessian的视角提供了SGD在Transformers上失败的解释:(i) Transformers是“异质”的:参数块之间的Hessian谱差异巨大,我们称之为“块异质性”现象;(ii) 异质性阻碍了SGD:SGD在具有块异质性的问题上表现不佳。为了验证异质性阻碍了SGD,我们检查了各种Transformers、CNNs、MLPs和二次问题,并发现SGD在没有块异质性的问题上表现良好,但在存在异质性时表现不佳。我们的初步理论分析表明,SGD失败是因为它对所有块应用了一个单一的学习率,无法处理块之间的异质性。如果我们能像Adam设计的那样为不同的块分配不同的学习率,就可以挽救这种失败。
  • 图表
  • 解决问题
    SGD在Transformers上表现不如Adam,原因在于什么?
  • 关键思路
    SGD在处理具有“块异质性”的问题时表现不佳,因为它使用相同的学习率处理所有块,而不能处理块之间的异质性。
  • 其它亮点
    论文通过对Hessian的分析解释了SGD在Transformers上的失败。作者发现Transformers具有“块异质性”,即参数块之间的Hessian谱差异巨大。作者还验证了SGD在处理具有块异质性的问题时表现不佳,但在没有块异质性的问题上表现良好。论文提出,如果能够为不同的块分配不同的学习率,就可以解决SGD的失败。
  • 相关研究
    最近的相关研究包括:《Adam: A Method for Stochastic Optimization》、《On the Convergence of Adam and Beyond》、《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论