High dimensional analysis reveals conservative sharpening and a stochastic edge of stability

简介

最近的实证和理论工作表明，在完整批量的情况下，训练损失 Hessian 的大特征值动态在模型和数据集中具有一些非常稳健的特征。通常有一个早期的渐进锐化阶段，其中大特征值增加，然后稳定在一个可预测的值上，称为稳定边缘。以前的工作表明，在随机设置中，特征值的增长速度更慢，这种现象被称为保守锐化。我们提供了一个简单的高维模型的理论分析，展示了这种减速的起源。我们还展示了在小批量大小下出现的另一种随机稳定边缘，它对神经切向核的迹敏感，而不是大的 Hessian 特征值。我们进行了一项实验研究，突出了与完整批量现象的定性差异，并表明控制随机稳定边缘可以帮助优化。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文探讨全批次和随机批次训练中大特征值的动态变化，研究它们的稳定性和优化效果。
关键思路

论文提出了一种简单的高维模型，解释了随机批次训练中大特征值变化速度减缓的原因，并提出了一个新的随机批次稳定性边缘，它与神经切向核的痕迹有关。
其它亮点

论文的实验结果表明，与全批次训练相比，随机批次训练中的稳定性边缘具有不同的性质。作者还提出了一种新的控制随机批次稳定性边缘的方法，可以提高优化效果。
相关研究

与本论文相关的研究包括：《Large Batch Training of Convolutional Networks》、《On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima》等。

High dimensional analysis reveals conservative sharpening and a stochastic edge of stability

提问交流

提问交流