Neural Redshift: Random Networks are not Random Functions

IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2024
2024年03月04日
  • 简介
    我们对神经网络的泛化能力的理解仍然不完整。目前的解释基于梯度下降的隐含偏差,但不能解释梯度无关方法的模型能力,也不能解释最近在未经训练的网络中观察到的简单偏差。本文寻找神经网络中的其他泛化来源。 研究发现,为了独立于梯度下降理解体系结构提供的归纳偏差,我们研究了未经训练的随机权重网络。即使是简单的多层感知机也表现出强烈的归纳偏差:在权重空间中进行均匀采样会产生非常有偏差的函数分布,这与复杂度有关。但是与常见的智慧不同,神经网络没有固有的“简单偏差”。这个属性取决于组件,例如ReLU、残差连接和层归一化。可以构建具有任何复杂度水平偏差的替代体系结构。变压器也从它们的构建块继承了所有这些属性。 影响:我们提供了一个独立于基于梯度的训练的深度学习成功的新解释。它指出了控制训练模型实现的解决方案的有希望的途径。
  • 图表
  • 解决问题
    神经网络的归纳偏差是从哪里来的?
  • 关键思路
    通过研究未经训练的随机权重网络,发现即使是简单的MLP也具有很强的归纳偏差,但与常规智慧不同,神经网络并没有固有的“简单性偏差”,这取决于组件,如ReLU、残差连接和层归一化。
  • 其它亮点
    论文提供了一个独立于基于梯度的训练的深度学习成功的新解释,这指向了控制训练模型实现的有前途的途径。实验展示了未经训练的随机权重网络的归纳偏差,以及不同组件对神经网络的简单性偏差的影响。
  • 相关研究
    最近的相关研究包括《Implicit Neural Representations with Periodic Activation Functions》、《On the Spectral Bias of Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论