- 简介人们普遍认为,神经网络可以拟合训练集,只要训练集中的样本数量不少于网络参数数量,这支持了过度参数化和欠参数化模型的概念。然而,在实践中,我们只能通过训练过程中的优化器和正则化器等工具获得可行的解决方案,这限制了灵活性。此外,内置于架构中的函数类的精确参数化塑造了其损失曲面并影响我们找到的最小值。在这项工作中,我们研究了神经网络在实践中拟合数据的能力。我们的研究结果表明:(1)标准优化器找到的最小值只能拟合比网络参数数量少得多的训练集;(2)卷积网络比多层感知机和ViTs更具参数效率,即使在随机标记的数据上也是如此;(3)虽然随机训练被认为具有正则化效果,但随机梯度下降实际上可以找到适合更多训练数据的最小值;(4)拟合正确标记和错误标记样本的能力差异可以预测泛化能力;(5)ReLU激活函数会导致找到适合更多数据的最小值,尽管它们旨在避免深层结构中的梯度消失和梯度爆炸问题。
- 图表
- 解决问题本论文旨在研究神经网络在实践中拟合数据的能力,并探讨其参数化的影响和优化器的作用。具体而言,研究标准优化器在哪些情况下能够找到最小值,卷积网络与MLP和ViTs在拟合随机标记数据时的参数效率比较,SGD与全批量梯度下降的拟合能力差异,ReLU激活函数在深层网络中的表现等问题。
- 关键思路论文的关键思路是通过实验研究神经网络的拟合能力,并探讨影响拟合能力的因素,包括优化器、参数化等。实验结果表明,标准优化器的能力有限,卷积网络比MLP和ViTs更加参数化有效,SGD比全批量梯度下降更容易拟合数据,ReLU激活函数的表现与其设计初衷不符。
- 其它亮点论文的实验设计精细,使用了多个数据集和不同的神经网络结构,同时开源了代码。实验结果表明,神经网络的拟合能力受到多种因素的影响,包括优化器、参数化、激活函数等。这些结论对于神经网络的设计和应用具有指导意义。
- 在相关研究方面,最近的一些论文包括《Understanding deep learning requires rethinking generalization》、《Visualizing the Loss Landscape of Neural Nets》等。
沙发等你来抢
去评论
评论
沙发等你来抢