Old Optimizer, New Norm: An Anthology

2024年09月30日
  • 简介
    深度学习优化器通常是通过凸性和近似二阶理论的混合来激发的。我们选择了三种这样的方法——Adam、Shampoo和Prodigy——并认为每种方法都可以被理解为没有凸性假设的一阶方法。事实上,在关闭指数移动平均值后,每种方法都等价于特定范数下的最陡下降。通过推广这个观察结果,我们为训练算法开辟了一个新的设计空间。应该为不同的张量分配不同的算子范数,这取决于张量在网络中所扮演的角色。例如,虽然线性层和嵌入层可能具有相同的权重空间$\mathbb{R}^{m\times n}$,但这些层扮演不同的角色,应该分配不同的范数。我们希望这种精心测量神经结构的想法可以导致更稳定、可扩展、更快的训练。
  • 图表
  • 解决问题
    论文试图探讨深度学习优化器的设计空间,通过针对不同张量分配不同的算子范数来提高训练的稳定性、可扩展性和速度。
  • 关键思路
    论文提出了一种新的设计空间,即为不同张量分配不同的算子范数,从而将Adam、Shampoo和Prodigy等二阶方法转化为一阶方法。这种方法不需要凸性假设,可以提高训练的速度和稳定性。
  • 其它亮点
    论文通过实验验证了这种方法的有效性,并提出了一些有趣的想法,如将不同的算子范数分配给不同的张量,以及使用自适应的算子范数。论文还开源了代码,并提供了实验数据集。
  • 相关研究
    最近的相关研究包括:《A Closer Look at Memorization in Deep Networks》、《On the Convergence and Robustness of Adversarial Training》、《Second-Order Optimization Made Practical》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论