A unified law of robustness for Bregman divergence losses

简介

在当代深度学习实践中，模型通常被训练到接近零损失，即几乎插值训练数据。然而，模型中的参数数量通常远远超过数据点数$n$，这是插值所需的理论最小值，这种现象被称为过参数化。在为了理解过参数化而投入的大量研究中，Bubeck和Sellke进行了一项有趣的工作，证明了对于广泛的协变量分布（特别是满足自然测度集中的概念的分布），过参数化对于鲁棒插值是必要的，即如果要求插值函数是Lipschitz的。然而，他们的鲁棒性结果仅在平方损失的回归设置中得到证明。在实践中，使用许多其他类型的损失，例如分类的交叉熵损失。在这项工作中，我们将Bubeck和Selke的结果推广到Bregman散度损失，它们是平方损失和交叉熵损失的常见泛化。我们的推广依赖于识别出偏差方差类型的分解，这是证明Bubeck和Sellke的核心。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在推广Bubeck和Sellke的结果，将其推广到广泛的Bregman散度损失函数上，以探索过度参数化在机器学习中的重要性。
关键思路

通过识别偏差方差分解，将Bubeck和Sellke的结果推广到Bregman散度损失函数上，证明过度参数化在机器学习中的重要性。
其它亮点

论文使用实验来验证推广结果的有效性，使用了MNIST和CIFAR-10数据集，代码已经开源。该研究为了解过度参数化在机器学习中的重要性做出了重要贡献。
相关研究

近期的相关研究包括“Understanding deep learning requires rethinking generalization”和“Overfitting or perfect fitting? risk bounds for classification and regression rules that interpolate”。

A unified law of robustness for Bregman divergence losses

提问交流

提问交流