- 简介最近的实证和理论工作表明,在完整批量的情况下,训练损失 Hessian 的大特征值动态在模型和数据集中具有一些非常稳健的特征。通常有一个早期的渐进锐化阶段,其中大特征值增加,然后稳定在一个可预测的值上,称为稳定边缘。以前的工作表明,在随机设置中,特征值的增长速度更慢,这种现象被称为保守锐化。我们提供了一个简单的高维模型的理论分析,展示了这种减速的起源。我们还展示了在小批量大小下出现的另一种随机稳定边缘,它对神经切向核的迹敏感,而不是大的 Hessian 特征值。我们进行了一项实验研究,突出了与完整批量现象的定性差异,并表明控制随机稳定边缘可以帮助优化。
-
- 图表
- 解决问题论文探讨全批次和随机批次训练中大特征值的动态变化,研究它们的稳定性和优化效果。
- 关键思路论文提出了一种简单的高维模型,解释了随机批次训练中大特征值变化速度减缓的原因,并提出了一个新的随机批次稳定性边缘,它与神经切向核的痕迹有关。
- 其它亮点论文的实验结果表明,与全批次训练相比,随机批次训练中的稳定性边缘具有不同的性质。作者还提出了一种新的控制随机批次稳定性边缘的方法,可以提高优化效果。
- 与本论文相关的研究包括:《Large Batch Training of Convolutional Networks》、《On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流