Understanding the Double Descent Phenomenon in Deep Learning

2024年03月15日
  • 简介
    在机器学习中,将经验风险最小化和容量控制结合起来是一种经典的策略,用于控制泛化差距和避免过拟合,尤其是当模型类的容量变得更大时。然而,在现代深度学习实践中,非常大的超参数化模型(例如神经网络)被优化以完美地拟合训练数据,并且仍然获得很好的泛化性能。在插值点之后,增加模型复杂度似乎实际上会降低测试误差。 在本教程中,我们解释了双下降的概念及其机制。第一部分介绍了经典的统计学习框架,并介绍了双下降现象。通过观察许多例子,第二部分介绍了归纳偏差,这些偏差似乎通过选择平滑的经验风险最小化器,在多个插值解中起着关键作用。最后,第三部分探讨了两个线性模型的双下降,并从最近相关的研究中给出了其他观点。
  • 图表
  • 解决问题
    探究在深度学习中,当模型容量增大时,如何避免过拟合,控制泛化误差?同时,研究大规模过参数化的模型如何在拟合训练数据的同时,依然能够取得良好的泛化性能。
  • 关键思路
    介绍双峰下降现象,探究其机制。通过一系列实验,提出归纳偏差对于选择平滑的经验风险最小化解有着重要作用。
  • 其它亮点
    论文通过实验验证了双峰下降现象,并提出了归纳偏差在其中的重要作用。同时,论文还探究了两个线性模型的双峰下降现象,并介绍了最近相关研究的进展。
  • 相关研究
    最近相关的研究包括:1. Understanding deep learning requires rethinking generalization(Zhang等,2016);2. Implicit regularization in deep learning(Neyshabur等,2015);3. The generalization error of random features regression: Precise asymptotics and double descent curve(Belkin等,2019)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论