- 简介SGD在Transformers上的表现明显不如Adam,但原因尚不清楚。本研究通过Hessian的视角提供了SGD在Transformers上失败的解释:(i) Transformers是“异质”的:参数块之间的Hessian谱差异巨大,我们称之为“块异质性”现象;(ii) 异质性阻碍了SGD:SGD在具有块异质性的问题上表现不佳。为了验证异质性阻碍了SGD,我们检查了各种Transformers、CNNs、MLPs和二次问题,并发现SGD在没有块异质性的问题上表现良好,但在存在异质性时表现不佳。我们的初步理论分析表明,SGD失败是因为它对所有块应用了一个单一的学习率,无法处理块之间的异质性。如果我们能像Adam设计的那样为不同的块分配不同的学习率,就可以挽救这种失败。
- 图表
- 解决问题SGD在Transformers上表现不如Adam,原因在于什么?
- 关键思路SGD在处理具有“块异质性”的问题时表现不佳,因为它使用相同的学习率处理所有块,而不能处理块之间的异质性。
- 其它亮点论文通过对Hessian的分析解释了SGD在Transformers上的失败。作者发现Transformers具有“块异质性”,即参数块之间的Hessian谱差异巨大。作者还验证了SGD在处理具有块异质性的问题时表现不佳,但在没有块异质性的问题上表现良好。论文提出,如果能够为不同的块分配不同的学习率,就可以解决SGD的失败。
- 最近的相关研究包括:《Adam: A Method for Stochastic Optimization》、《On the Convergence of Adam and Beyond》、《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》等。
沙发等你来抢
去评论
评论
沙发等你来抢