A unified law of robustness for Bregman divergence losses

2024年05月26日
  • 简介
    在当代深度学习实践中,模型通常被训练到接近零损失,即几乎插值训练数据。然而,模型中的参数数量通常远远超过数据点数$n$,这是插值所需的理论最小值,这种现象被称为过参数化。在为了理解过参数化而投入的大量研究中,Bubeck和Sellke进行了一项有趣的工作,证明了对于广泛的协变量分布(特别是满足自然测度集中的概念的分布),过参数化对于鲁棒插值是必要的,即如果要求插值函数是Lipschitz的。然而,他们的鲁棒性结果仅在平方损失的回归设置中得到证明。在实践中,使用许多其他类型的损失,例如分类的交叉熵损失。在这项工作中,我们将Bubeck和Selke的结果推广到Bregman散度损失,它们是平方损失和交叉熵损失的常见泛化。我们的推广依赖于识别出偏差方差类型的分解,这是证明Bubeck和Sellke的核心。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在推广Bubeck和Sellke的结果,将其推广到广泛的Bregman散度损失函数上,以探索过度参数化在机器学习中的重要性。
  • 关键思路
    通过识别偏差方差分解,将Bubeck和Sellke的结果推广到Bregman散度损失函数上,证明过度参数化在机器学习中的重要性。
  • 其它亮点
    论文使用实验来验证推广结果的有效性,使用了MNIST和CIFAR-10数据集,代码已经开源。该研究为了解过度参数化在机器学习中的重要性做出了重要贡献。
  • 相关研究
    近期的相关研究包括“Understanding deep learning requires rethinking generalization”和“Overfitting or perfect fitting? risk bounds for classification and regression rules that interpolate”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问