Bayesian Double Descent - 智源社区论文

向作者提问

NEW

简介

双下降是一种过参数化统计模型中的现象。我们的目标是从贝叶斯的角度来理解双下降。像深度神经网络这样的过参数化模型在其风险特性中表现出一种有趣的“再次下降”现象。这是机器学习领域最近发现的现象，也已成为许多研究的主题。随着模型复杂度的增加，会先出现一个呈U型的风险区域，对应于传统的偏差-方差权衡；但随后当参数数量等于观测数量、模型进入插值区域时，风险可能会变得无限大；接着在过参数化区域中，风险又开始下降——这就是所谓的双下降效应。我们表明，这一现象可以用贝叶斯框架进行自然解释。此外，我们还说明了这种效应并不违背贝叶斯模型所具有的奥卡姆剃刀原则，即贝叶斯方法倾向于在可能的情况下选择更简单的模型。我们通过一个神经网络中的贝叶斯模型选择示例来说明这一观点。最后，我们提出了未来研究的方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图从贝叶斯视角解释机器学习中的“双下降”现象（double descent），即在模型复杂度增加时，风险曲线先呈现U型变化，在参数数量等于样本数量时风险可能趋于无穷大，随后进入过参数化区域再次下降。这一现象是近年来机器学习领域的重要研究问题。
关键思路

作者提出了一种自然的贝叶斯解释框架，认为双下降现象与贝叶斯方法中偏好简单模型的奥卡姆剃刀原则并不矛盾，并通过贝叶斯模型选择的例子（如神经网络）说明该观点。
其它亮点

1. 首次尝试用贝叶斯理论解释双下降现象 2. 展示了贝叶斯方法即使在过参数化区域也能保持良好泛化能力 3. 结合了深度学习中的插值现象与统计学习理论 4. 为未来构建更稳健的贝叶斯模型选择方法提供了新思路
相关研究

1. Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). Reconciling modern machine-learning practice and the classical bias–variance trade-off. 2. Bartlett, P., Long, P. M., Lugosi, G., & Tsigler, A. (2020). Benign Overfitting in Linear Regression. 3. Nakkiran, P., et al. (2020). Deep Double Descent: Where Bigger Models and More Data Hurt. 4. Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. 5. Wilson, A. G., & Izmailov, P. (2020). Bayesian Deep Learning via Subnetwork Inference.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问