Old Optimizer, New Norm: An Anthology

简介

深度学习优化器通常是通过凸性和近似二阶理论的混合来激发的。我们选择了三种这样的方法——Adam、Shampoo和Prodigy——并认为每种方法都可以被理解为没有凸性假设的一阶方法。事实上，在关闭指数移动平均值后，每种方法都等价于特定范数下的最陡下降。通过推广这个观察结果，我们为训练算法开辟了一个新的设计空间。应该为不同的张量分配不同的算子范数，这取决于张量在网络中所扮演的角色。例如，虽然线性层和嵌入层可能具有相同的权重空间$\mathbb{R}^{m\times n}$，但这些层扮演不同的角色，应该分配不同的范数。我们希望这种精心测量神经结构的想法可以导致更稳定、可扩展、更快的训练。
图表
解决问题

论文试图探讨深度学习优化器的设计空间，通过针对不同张量分配不同的算子范数来提高训练的稳定性、可扩展性和速度。
关键思路

论文提出了一种新的设计空间，即为不同张量分配不同的算子范数，从而将Adam、Shampoo和Prodigy等二阶方法转化为一阶方法。这种方法不需要凸性假设，可以提高训练的速度和稳定性。
其它亮点

论文通过实验验证了这种方法的有效性，并提出了一些有趣的想法，如将不同的算子范数分配给不同的张量，以及使用自适应的算子范数。论文还开源了代码，并提供了实验数据集。
相关研究

最近的相关研究包括：《A Closer Look at Memorization in Deep Networks》、《On the Convergence and Robustness of Adversarial Training》、《Second-Order Optimization Made Practical》等。

Old Optimizer, New Norm: An Anthology

评论