- 简介在机器学习中有一个称为“理解”的谜样现象,即在接近完美地过度拟合训练数据后,需要十倍的迭代才能实现延迟泛化。我们的目标是加速在“理解”现象下模型的泛化,专注于机器学习从业者自身的长时间延迟。通过将参数的一系列梯度视为随时间变化的随机信号,我们可以将梯度下降下的参数轨迹谱分解为两个组成部分:快速变化的过度拟合产生的部分和缓慢变化的泛化引导部分。这种分析使我们能够通过仅几行代码放大梯度的缓慢变化部分,将“理解”现象加速超过50倍。实验表明,我们的算法适用于涉及图像、语言和图形的各种任务,使这种奇特的现象得以实现。我们的代码可在https://github.com/ironjr/grokfast上获得。
- 图表
- 解决问题加速机器学习模型在Grokking现象下的泛化能力
- 关键思路通过对参数梯度的频谱分解,加强梯度中的慢变分量,从而加速模型从过度拟合状态到泛化状态的转化
- 其它亮点论文提出的算法能够将模型在Grokking现象下的泛化时间缩短50倍以上,实验结果表明该算法在图像、语言和图形等多个任务上均有效。论文代码已在GitHub上开源。
- 近期相关研究包括:《Understanding deep learning requires rethinking generalization》、《Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢