Saddle-to-Saddle Dynamics Explains A Simplicity Bias Across Neural Network Architectures

2025年12月23日
  • 简介
    使用梯度下降训练的神经网络通常会随着时间推移学习到复杂性逐渐增加的解,这种现象被称为“简单性偏好”(simplicity bias)。尽管这一现象在各种网络架构中广泛存在,现有的理论分析却缺乏统一的框架。本文提出一个理论框架,用于解释一大类神经网络(包括全连接网络、卷积网络和基于注意力机制的网络)中由“鞍点到鞍点”学习动力学所导致的简单性偏好。此处,“简单”指的是可以用较少的隐含单元来表达的解,即较少的隐含神经元、卷积核或注意力头。具体而言,我们证明:线性网络学习的解其秩逐步增加,ReLU网络学习的解其“拐点”数量逐步增加,卷积网络学习的解使用的卷积核数量逐步增加,而自注意力模型学习的解则使用越来越多的注意力头。通过分析梯度下降学习过程中的不动点、不变流形及其动力学行为,我们发现这种鞍点到鞍点的动力学机制是通过反复地在某个不变流形附近演化,逐渐接近一个鞍点,然后切换到另一个新的不变流形而实现的。我们的分析还阐明了数据分布和权重初始化对学习过程中平台期持续时间和出现次数的影响,从而将以往混淆的因素区分开来。总体而言,本理论为理解梯度下降在何种条件下以及为何会逐步学习出越来越复杂的解提供了统一的框架。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决神经网络在梯度下降训练过程中为何会逐步学习从简单到复杂解决方案的问题,即所谓的‘简单性偏好’(simplicity bias)现象。尽管这一现象在多种架构中广泛观察到,但现有理论缺乏统一的解释框架,因此该问题尚未被系统性地解决。
  • 关键思路
    提出了一种基于鞍点到鞍点(saddle-to-saddle)学习动力学的统一理论框架,解释了包括全连接网络、卷积网络和注意力模型在内的多种神经网络结构中复杂度逐步增加的学习行为。核心思想是:梯度下降动态通过在不变流形附近演化、接近一个鞍点后切换到另一个流形,从而逐阶段引入更多隐藏单元(如神经元、卷积核或注意力头),实现从简单到复杂的渐进学习。
  • 其它亮点
    理论分析揭示了数据分布与权重初始化如何影响学习过程中的平台期(plateaus)持续时间和数量,分离了以往混淆的因素。该框架适用于线性网络(学习秩递增)、ReLU网络(学习更多拐点)、卷积网络(使用更多卷积核)和自注意力模型(激活更多注意力头)。实验虽以理论推导为主,但为未来验证提供了清晰路径。目前未提及具体数据集或开源代码,但理论可指导设计探针实验。值得深入研究的方向包括将此框架扩展至更深网络、非凸优化场景以及实际任务中的复杂度演化测量。
  • 相关研究
    1. Towards Understanding Generalization via Decomposing Gradient Descent 2. On the Inductive Bias of Neural Tangent Kernels 3. Gradient Descent Finds Global Minima of Deep Neural Networks 4. The Implicit Bias of Depth: How Hierarchical Structure Helps Sampling 5. Learning Representations by Maximizing Mutual Information
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问