High dimensional analysis reveals conservative sharpening and a stochastic edge of stability

2024年04月30日
  • 简介
    最近的实证和理论工作表明,在完整批量的情况下,训练损失 Hessian 的大特征值动态在模型和数据集中具有一些非常稳健的特征。通常有一个早期的渐进锐化阶段,其中大特征值增加,然后稳定在一个可预测的值上,称为稳定边缘。以前的工作表明,在随机设置中,特征值的增长速度更慢,这种现象被称为保守锐化。我们提供了一个简单的高维模型的理论分析,展示了这种减速的起源。我们还展示了在小批量大小下出现的另一种随机稳定边缘,它对神经切向核的迹敏感,而不是大的 Hessian 特征值。我们进行了一项实验研究,突出了与完整批量现象的定性差异,并表明控制随机稳定边缘可以帮助优化。
  • 作者讲解
  • 图表
  • 解决问题
    论文探讨全批次和随机批次训练中大特征值的动态变化,研究它们的稳定性和优化效果。
  • 关键思路
    论文提出了一种简单的高维模型,解释了随机批次训练中大特征值变化速度减缓的原因,并提出了一个新的随机批次稳定性边缘,它与神经切向核的痕迹有关。
  • 其它亮点
    论文的实验结果表明,与全批次训练相比,随机批次训练中的稳定性边缘具有不同的性质。作者还提出了一种新的控制随机批次稳定性边缘的方法,可以提高优化效果。
  • 相关研究
    与本论文相关的研究包括:《Large Batch Training of Convolutional Networks》、《On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问