More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory

2023年11月24日
  • 简介
    在我们这个巨大神经网络的时代,经验性进展被“越多越好”的理念所推动。最近的深度学习实践反复表明,更大的模型规模、更多的数据和更多的计算(导致训练误差更低)可以提高性能。在本文中,我们通过展示这三个特性在随机特征回归中成立,为这些经验性观察提供了理论支持。随机特征回归是一类等价于只训练最后一层的浅层网络的模型。 具体而言,我们首先展示了随机特征回归的测试风险随着特征数量和样本数量的增加而单调递减,前提是岭回归参数被调整到最优。特别地,这意味着无限宽度的随机特征结构优于任何有限宽度的结构。然后我们继续证明,对于一大类具有幂律特征的任务,训练到接近零的训练误差是必要的:只有当训练误差远小于测试误差时,才能实现近乎最优的性能。将我们的理论基于真实世界的数据,我们发现,具有卷积神经切向核的标准计算机视觉任务明显属于这一类。综上所述,我们的结果告诉我们一个简单、可测试的故事,即过度参数化、过拟合和更多的数据在随机特征模型中的好处。
  • 图表
  • 解决问题
    论文旨在给出理论支持,解释为什么更大的模型、更多的数据和更多的计算会提高机器学习模型的性能。这是否是一个新问题?
  • 关键思路
    论文通过研究等价于浅层神经网络的随机特征回归模型,证明了在适当调整岭回归惩罚项的情况下,RF回归的测试风险随着特征数和样本数的增加而单调减少。此外,论文还证明了对于一大类具有幂律特征的任务,训练到接近零的训练误差是必要的,只有当训练误差远小于测试误差时,才能实现接近最优的性能。这些结果告诉我们过度参数化、过拟合和更多数据的好处。
  • 其它亮点
    论文的实验结果表明,标准的计算机视觉任务使用卷积神经切线内核明显属于具有幂律特征的任务类别。论文的理论结果提供了对深度学习实践中使用更大的模型、更多的数据和更多的计算的理论支持。论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括《Scaling Laws for Neural Language Models》、《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论