A Universal Class of Sharpness-Aware Minimization Algorithms

简介

最近，人们对开发针对超参数模型的优化算法的兴趣激增，因为人们认为实现泛化需要具有适当偏差的算法。这种兴趣集中在最小化原始损失函数的锐度上；Sharpness-Aware Minimization (SAM)算法已被证明是有效的。然而，大多数文献只考虑了一些锐度测量，如训练损失Hessian的最大特征值或迹，这可能对于非凸优化场景（如神经网络）不会产生有意义的洞察力。此外，许多锐度测量对神经网络中的参数不变性敏感，在重新调整参数时会显著放大。受到这些挑战的启发，本文介绍了一类新的锐度测量方法，从而导致了新的锐度感知目标函数。我们证明这些测量是“普遍表达”的，允许使用适当的超参数表示训练损失Hessian矩阵的任何函数。此外，我们展示了所提出的目标函数明确地偏向于最小化它们对应的锐度测量，并展示了它们如何允许对具有参数不变性（如尺度不变性）的模型进行有意义的应用。最后，作为我们提出的通用框架的实例，我们提出了Frob-SAM和Det-SAM，它们分别专门设计用于最小化训练损失Hessian的Frobenius范数和行列式。我们还通过广泛的实验展示了我们通用框架的优势。
图表
解决问题

本论文旨在解决过参数化模型的优化算法问题，通过引入新的锐度度量方法和相应的目标函数来偏向最小化锐度度量，同时解决现有锐度度量方法的不足。
关键思路

本文提出了一种新的锐度度量方法，称为Frob-SAM和Det-SAM，分别用于最小化训练损失Hessian矩阵的Frobenius范数和行列式，同时证明了这些度量方法的普适表达性，可以通过适当的超参数表示训练损失Hessian矩阵的任何函数，并且这些目标函数明确地偏向于最小化相应的锐度度量。
其它亮点

本文的亮点包括：提出了新的锐度度量方法和相应的目标函数，证明了这些度量方法的普适表达性，解决了现有锐度度量方法的不足，通过实验验证了这些方法的有效性，并且提供了开源代码。
相关研究

最近的相关研究包括Sharpness-Aware Minimization (SAM)算法和其他锐度度量方法，如最大特征值或训练损失Hessian矩阵的迹。

A Universal Class of Sharpness-Aware Minimization Algorithms

评论