Friendly Sharpness-Aware Minimization

2024年03月19日
  • 简介
    Sharpness-Aware Minimization(SAM)通过最小化训练损失和损失锐度,在改善深度神经网络训练方面发挥了重要作用。尽管在实践中取得了成功,但是SAM的泛化增强机制仍然不明确,限制了其在深度学习优化方面的进展。在本研究中,我们研究了SAM的核心组件以改善泛化,并引入“Friendly-SAM”(F-SAM)以进一步增强SAM的泛化性能。我们的研究揭示了对抗性扰动中批次特定随机梯度噪声在SAM的泛化性能中起到的关键作用,即当前小批量梯度。通过将SAM中的对抗性扰动分解为全梯度和随机梯度噪声分量,我们发现仅依赖于全梯度分量会降低泛化性能,而排除它则会提高性能。可能的原因在于全梯度分量增加了整个数据集的锐度损失,与随后仅针对当前小批量数据进行的锐度最小化步骤产生不一致。受这些见解的启发,F-SAM旨在减轻全梯度分量的负面影响。它通过历史随机梯度的指数移动平均(EMA)估计删除全梯度,然后利用随机梯度噪声来改善泛化性能。此外,我们为EMA近似提供了理论验证,并证明了F-SAM在非凸问题上的收敛性。大量实验证明了F-SAM相对于普通的SAM具有更优的泛化性能和鲁棒性。代码可在https://github.com/nblt/F-SAM获得。
  • 图表
  • 解决问题
    本文旨在研究Sharpness-Aware Minimization (SAM)算法的核心组件对于泛化性能的影响,并提出了Friendly-SAM (F-SAM)算法以进一步提高SAM的泛化性能。研究的问题是如何改进SAM的泛化性能,这是一个当前的研究问题。
  • 关键思路
    SAM算法中的批次特定随机梯度噪声在对抗扰动中起着关键作用,即当前小批量梯度。通过将SAM中的对抗扰动分解为全梯度和随机梯度噪声组件,作者发现仅依赖于全梯度组件会降低泛化性能,而排除全梯度组件会导致性能提高。因此,F-SAM算法旨在减轻全梯度组件的负面影响,通过移除历史随机梯度的指数移动平均值来提高随机梯度噪声的泛化性能。
  • 其它亮点
    本文提出了F-SAM算法以进一步提高SAM的泛化性能,提供了EMA近似的理论验证,并证明了F-SAM在非凸问题上的收敛性。实验结果表明,F-SAM具有优越的泛化性能和鲁棒性。
  • 相关研究
    在这个领域的相关研究包括:Adaptive Gradient Methods for Nonconvex Optimization、Sharpness-Aware Minimization for Efficiently Improving Generalization、Stochastic Gradient Descent with Warm Restarts等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论