Understanding the Double Descent Phenomenon in Deep Learning

简介

在机器学习中，将经验风险最小化和容量控制结合起来是一种经典的策略，用于控制泛化差距和避免过拟合，尤其是当模型类的容量变得更大时。然而，在现代深度学习实践中，非常大的超参数化模型（例如神经网络）被优化以完美地拟合训练数据，并且仍然获得很好的泛化性能。在插值点之后，增加模型复杂度似乎实际上会降低测试误差。在本教程中，我们解释了双下降的概念及其机制。第一部分介绍了经典的统计学习框架，并介绍了双下降现象。通过观察许多例子，第二部分介绍了归纳偏差，这些偏差似乎通过选择平滑的经验风险最小化器，在多个插值解中起着关键作用。最后，第三部分探讨了两个线性模型的双下降，并从最近相关的研究中给出了其他观点。
图表
解决问题

探究在深度学习中，当模型容量增大时，如何避免过拟合，控制泛化误差？同时，研究大规模过参数化的模型如何在拟合训练数据的同时，依然能够取得良好的泛化性能。
关键思路

介绍双峰下降现象，探究其机制。通过一系列实验，提出归纳偏差对于选择平滑的经验风险最小化解有着重要作用。
其它亮点

论文通过实验验证了双峰下降现象，并提出了归纳偏差在其中的重要作用。同时，论文还探究了两个线性模型的双峰下降现象，并介绍了最近相关研究的进展。
相关研究

最近相关的研究包括：1. Understanding deep learning requires rethinking generalization（Zhang等，2016）；2. Implicit regularization in deep learning（Neyshabur等，2015）；3. The generalization error of random features regression: Precise asymptotics and double descent curve（Belkin等，2019）等。

Understanding the Double Descent Phenomenon in Deep Learning

评论