Early learning of the optimal constant solution in neural networks and humans

简介

深度神经网络在训练过程中学习越来越复杂的函数。本文通过实证和理论两方面展示了，学习目标函数之前，网络会先进入一个早期阶段，在这个阶段中，网络会学习到最优常数解（OCS），也就是说，初始模型的响应与目标标签的分布相似，完全忽略输入所提供的信息。通过一个分层类别学习任务，我们推导出带有偏置项的深度线性网络训练动态的精确解。即使初始化为零，这个简单的架构特征也会引起早期动态的显著变化。我们确定了这个早期OCS阶段的特征，并且阐述了这些特征在深度线性网络和更大、更复杂（非线性）的卷积神经网络中如何表现出来，这些网络解决了基于MNIST和CIFAR10的分层学习任务。我们通过证明深度线性网络在早期学习过程中必然学习OCS来解释这些观察结果。为了进一步探究我们的结果的普遍性，我们对人类学习者进行了为期三天的类别学习任务训练。然后，我们通过真实负样本（正确拒绝）率的动态特征来确定这个早期OCS阶段的定性特征。令人惊讶的是，我们发现人类学习者的行为也同样依赖于OCS。最后，我们展示了即使在没有偏置项的情况下，OCS的学习也可以出现，并且同样受到输入数据的普遍相关性的驱动。总体而言，我们的工作表明OCS是一种在有监督的纠错学习中普遍存在的学习原则，而且其盛行的机制原因也得到了解释。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文试图验证在深度神经网络学习中，初始阶段网络学习的是最优常数解（OCS），并探究其机制和普遍性。

关键思路

论文通过理论分析和实验验证，证明了深度线性网络在学习过程中必然会先学习OCS，并且这种现象不仅仅存在于线性网络中，也存在于更复杂的卷积神经网络和人类学习中。

其它亮点

论文使用了一个层级分类学习任务，通过精确的数学模型和实验观察，揭示了OCS阶段的特征和机制，并证明了OCS作为一种普遍的学习原则存在。研究结果对于理解深度学习的学习机制具有重要意义。

Early learning of the optimal constant solution in neural networks and humans

提问交流

提问交流