Grokfast: Accelerated Grokking by Amplifying Slow Gradients

2024年05月30日
  • 简介
    在机器学习中,一个令人困惑的现象被称为“grokking”,即在训练数据出现过度拟合后,需要进行十倍的迭代才能实现延迟的泛化。针对机器学习从业者所面临的这种长时间延迟,我们的目标是加速模型在“grokking”现象下的泛化。通过将参数在训练迭代中的一系列梯度视为随时间变化的随机信号,我们可以将梯度下降下的参数轨迹谱分解成两个部分:快速变化、导致过度拟合的部分和慢速变化、导致泛化的部分。这种分析使我们能够通过放大梯度的慢速变化部分来加速“grokking”现象,仅需几行代码即可将其加速多达50倍。实验表明,我们的算法适用于涉及图像、语言和图形的各种任务,使这种奇特的现象得以实际应用。我们的代码可在\url{https://github.com/ironjr/grokfast}上获得。
  • 图表
  • 解决问题
    论文旨在解决机器学习中的grokking现象,即经过过度拟合后,需要经过多次迭代才能实现延迟的泛化。作者试图加速模型的泛化速度。
  • 关键思路
    通过将参数梯度的一系列变化作为随机信号进行频谱分解,将参数轨迹分解成两个部分:快速变化的过拟合产生部分和缓慢变化的泛化引导部分。作者通过扩大梯度的缓慢变化部分,成功加速了grokking现象。
  • 其它亮点
    论文的算法可以加速grokking现象50倍以上,适用于图像、语言和图表等各种任务。作者提供了开源代码。
  • 相关研究
    近期的相关研究包括:《Understanding deep learning requires rethinking generalization》和《On the spectral bias of neural networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论