近来机器学习模型呈现出一种向大模型发展的趋势,模型参数越来越多,但依然具有很好的泛化性能。一些研究者认为泛化性能得益于随机梯度下降算法(SGD)所带来的随机噪声。但最近一篇 ICLR 2022 的投稿《Stochastic Training is Not Necessary for Generalization》通过大量实验证实全批量的梯度下降算法(GD)可以达到与 SGD 不相上下的测试准确率,且随机噪声所带来的隐式正则化效应可以由显式的正则化替代。

 

论文地址:https://arxiv.org/pdf/2109.14119.pdf

人们普遍认为,随机梯度下降 (SGD) 的隐式正则化是神经网络泛化性能的基础。然而该研究证明非随机全批量训练可以在 CIFAR-10 上实现与 SGD 相当的强大性能。基于此,该研究使用调整后的超参数,并表明 SGD 的隐式正则化可以完全被显式正则化取代。研究者认为这说明:严重依赖随机采样来解释泛化的理论是不完整的,因为在没有随机采样的情况下仍然可以得到很好的泛化性能。并进一步说明:深度学习可以在没有随机性的情况下取得成功。此外,研究者还表示,全批量训练存在感知难度主要是因为:优化特性和机器学习社区为小批量训练调整优化器和超参数所花费的时间和精力不成比例。

内容中包含的图片若涉及版权问题,请及时与我们联系删除