How Does Overparameterization Affect Features?

2024年07月01日
  • 简介
    过度参数化是深度学习成功的关键因素,指的是模型具有比拟合训练损失所需参数更多的条件。然而,过度参数化网络学习的特征特性尚不为人们所了解。本研究通过比较具有相同架构但不同宽度的模型来探究这个问题。首先,我们研究了这些模型特征的表达能力,发现过度参数化网络的特征空间不能通过连接许多欠参数化特征来构成,反之亦然。这表明过度参数化和欠参数化网络都获得了一些独特的特征。然后,我们评估了这些模型的性能,并发现即使连接了许多欠参数化网络,过度参数化网络的性能仍然优于欠参数化网络。我们在CIFAR-10上使用VGG-16和ResNet18以及MNLI分类数据集上使用Transformer验证了这些发现。最后,我们提出了一个玩具设置来解释为什么过度参数化网络可以学习一些欠参数化网络无法学习的重要特征。
  • 图表
  • 解决问题
    论文旨在探讨过参数化网络学习到的特征空间与欠参数化网络的区别,并验证过参数化网络的表现是否更好。该问题是当前领域的研究热点问题。
  • 关键思路
    通过比较相同架构但不同宽度的模型,论文发现过参数化网络的特征空间不能由许多欠参数化特征连接而成,两者都具有独特的特征。论文还提出了一个玩具问题,解释了过参数化网络如何学习欠参数化网络无法学习到的重要特征。最终验证过参数化网络的表现更好。
  • 其它亮点
    论文设计了实验,使用了CIFAR-10和MNLI分类数据集,并使用了VGG-16、ResNet18和Transformer模型。论文提出的玩具问题解释了过参数化网络如何学习欠参数化网络无法学习到的重要特征。论文的实验结果表明,过参数化网络的表现更好。论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Understanding deep learning requires rethinking generalization》、《The loss surfaces of multilayer networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论