It's not a Lottery, it's a Race: Understanding How Gradient Descent Adapts the Network's Capacity to the Task

2026年02月04日
  • 简介
    我们对神经网络的理论理解,远远落后于其在实践中取得的成功。其中一个关键的未解之谜是:在采用梯度下降法进行训练的过程中,神经网络的理论容量究竟为何、又如何被缩减为恰好适配任务需求的有效容量。本文通过分析单隐层ReLU网络中单个神经元层面的学习动力学过程,探究了梯度下降实现这一容量缩减的具体机制。我们归纳出三条协同作用的动力学原理——“相互对齐”(mutual alignment)、“解锁”(unlocking)与“竞速”(racing)——它们共同解释了为何我们常能在训练后成功降低模型容量,例如通过合并功能等价的神经元,或剪枝范数较小的权重。我们特别阐明了“彩票假说”(lottery ticket conjecture)背后的机制,即:为何某些神经元在初始化时具备特定且有利的初始条件,从而使其在训练过程中最终获得更高的权重范数。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决神经网络理论容量与实际有效容量之间巨大差距的问题,即:为何在梯度下降训练过程中,过参数化的ReLU网络能自发降低其有效模型复杂度以适配任务复杂度?该问题属于深度学习基础理论中的核心未解之谜,虽非全新提出,但本文首次从单隐层ReLU网络中单个神经元的动态演化角度系统建模这一现象,具有明确的问题聚焦和机制级新视角。
  • 关键思路
    提出三个可观察、可验证的神经元级动力学原理——‘互对齐(mutual alignment)’(同功能神经元权重方向趋同)、‘解锁(unlocking)’(部分神经元突破初始停滞态进入活跃学习)和‘竞跑(racing)’(高初始化范数神经元在早期训练中快速主导梯度更新)。三者协同解释了等价神经元合并、低范数神经元自然退化等容量削减现象,并为‘彩票假设’提供了首个基于动力学的竞争性解释:并非所有‘中奖’初始权重都源于稀疏结构,而是因范数优势触发更快解锁与竞跑,从而在动态中胜出。
  • 其它亮点
    实验基于严格可控的单隐层ReLU网络(宽度100–500),在合成数据(如分段线性函数逼近)及小型基准(如MNIST二分类)上验证动力学三原则;通过可视化神经元权重轨迹、角度演化与L2范数增长曲线提供强证据;未开源代码,但方法完全可复现;亮点在于将‘彩票假设’从静态结构发现提升为动态竞争过程,启示后续研究应关注初始化-动力学-泛化之间的因果链,而非仅搜索子网络。
  • 相关研究
    ‘The Lottery Ticket Hypothesis’ (Frankle & Carbin, 2019); ‘Dynamics of Learning in Multilayer Perceptrons’ (Saad & Solla, 1995); ‘Neural Tangent Kernel: Convergence and Generalization’ (Jacot et al., 2018); ‘Mean Field Analysis of Deep Neural Networks’ (Mei et al., 2019); ‘Implicit Regularization in Deep Learning’ (Neyshabur et al., 2017)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问