- 简介本文研究了梯度正则化(GR)在现代超参数深度神经网络训练中的表现。GR旨在惩罚损失函数中梯度范数,已经在训练中取得了良好的效果。然而,我们能否信任这种强大的技术呢?本文揭示了GR在自适应优化场景中会导致性能退化,特别是在学习率预热时。我们的实证和理论分析表明,这是由于GR在初始训练阶段引起自适应优化器梯度统计的不稳定性和发散性。受到预热启发,我们提出了三种GR预热策略,每种策略在预热过程中都会在一定程度上放松正则化效果,以确保梯度的准确和稳定累积。通过对Vision Transformer系列的实验,我们证实了这三种GR预热策略可以有效地解决这些问题,从而大大提高了模型的性能。同时,我们注意到可扩展模型更倾向于使用GR预热,在Cifar10上与基准GR相比,性能可以提高多达3%。代码可在\href{https://github.com/zhaoyang-0204/gnp}{https://github.com/zhaoyang-0204/gnp}上找到。
- 图表
- 解决问题本论文试图探讨Gradient regularization(GR)技术在自适应优化场景中的表现,特别是在学习率预热过程中是否会导致性能下降。
- 关键思路论文提出了三种GR预热策略,以确保在学习率预热过程中梯度的准确和稳定性,从而有效地解决了GR技术在自适应优化场景中可能引起的梯度统计不稳定和发散问题。
- 其它亮点本论文的实验使用了Vision Transformer系列模型,并且开源了代码。研究发现,在可扩展模型中,GR预热策略的性能提升可达到3%。值得深入研究的是,本论文提出的GR预热策略可以为其他自适应优化算法提供参考。
- 相关研究包括:1.《On the Convergence and Robustness of Training GANs with Gradient Regularization》;2.《Stochastic Gradient Descent with Warm Restarts》;3.《Adaptive Gradient Methods with Dynamic Bound of Learning Rate》等。
沙发等你来抢
去评论
评论
沙发等你来抢