- 简介我们对神经网络的泛化能力的理解仍然不完整。目前的解释基于梯度下降的隐含偏差,但不能解释梯度无关方法的模型能力,也不能解释最近在未经训练的网络中观察到的简单偏差。本文寻找神经网络中的其他泛化来源。 研究发现,为了独立于梯度下降理解体系结构提供的归纳偏差,我们研究了未经训练的随机权重网络。即使是简单的多层感知机也表现出强烈的归纳偏差:在权重空间中进行均匀采样会产生非常有偏差的函数分布,这与复杂度有关。但是与常见的智慧不同,神经网络没有固有的“简单偏差”。这个属性取决于组件,例如ReLU、残差连接和层归一化。可以构建具有任何复杂度水平偏差的替代体系结构。变压器也从它们的构建块继承了所有这些属性。 影响:我们提供了一个独立于基于梯度的训练的深度学习成功的新解释。它指出了控制训练模型实现的解决方案的有希望的途径。
- 图表
- 解决问题神经网络的归纳偏差是从哪里来的?
- 关键思路通过研究未经训练的随机权重网络,发现即使是简单的MLP也具有很强的归纳偏差,但与常规智慧不同,神经网络并没有固有的“简单性偏差”,这取决于组件,如ReLU、残差连接和层归一化。
- 其它亮点论文提供了一个独立于基于梯度的训练的深度学习成功的新解释,这指向了控制训练模型实现的有前途的途径。实验展示了未经训练的随机权重网络的归纳偏差,以及不同组件对神经网络的简单性偏差的影响。
- 最近的相关研究包括《Implicit Neural Representations with Periodic Activation Functions》、《On the Spectral Bias of Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢