Early learning of the optimal constant solution in neural networks and humans

2024年06月25日
  • 简介
    深度神经网络在训练过程中学习越来越复杂的函数。本文通过实证和理论两方面展示了,学习目标函数之前,网络会先进入一个早期阶段,在这个阶段中,网络会学习到最优常数解(OCS),也就是说,初始模型的响应与目标标签的分布相似,完全忽略输入所提供的信息。通过一个分层类别学习任务,我们推导出带有偏置项的深度线性网络训练动态的精确解。即使初始化为零,这个简单的架构特征也会引起早期动态的显著变化。我们确定了这个早期OCS阶段的特征,并且阐述了这些特征在深度线性网络和更大、更复杂(非线性)的卷积神经网络中如何表现出来,这些网络解决了基于MNIST和CIFAR10的分层学习任务。我们通过证明深度线性网络在早期学习过程中必然学习OCS来解释这些观察结果。为了进一步探究我们的结果的普遍性,我们对人类学习者进行了为期三天的类别学习任务训练。然后,我们通过真实负样本(正确拒绝)率的动态特征来确定这个早期OCS阶段的定性特征。令人惊讶的是,我们发现人类学习者的行为也同样依赖于OCS。最后,我们展示了即使在没有偏置项的情况下,OCS的学习也可以出现,并且同样受到输入数据的普遍相关性的驱动。总体而言,我们的工作表明OCS是一种在有监督的纠错学习中普遍存在的学习原则,而且其盛行的机制原因也得到了解释。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图验证在深度神经网络学习中,初始阶段网络学习的是最优常数解(OCS),并探究其机制和普遍性。
  • 关键思路
    论文通过理论分析和实验验证,证明了深度线性网络在学习过程中必然会先学习OCS,并且这种现象不仅仅存在于线性网络中,也存在于更复杂的卷积神经网络和人类学习中。
  • 其它亮点
    论文使用了一个层级分类学习任务,通过精确的数学模型和实验观察,揭示了OCS阶段的特征和机制,并证明了OCS作为一种普遍的学习原则存在。研究结果对于理解深度学习的学习机制具有重要意义。
  • 相关研究
    相关研究包括:《On the Expressive Power of Deep Learning: A Tensor Analysis》、《Rethinking the Value of Network Pruning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问