Generalization at the Edge of Stability

2026年04月21日
  • 简介
    现代神经网络的训练通常依赖于较大的学习率,运行在稳定性的边缘区域;在此区域中,优化动力学呈现出振荡性乃至混沌行为。经验表明,该区域往往能带来更优的泛化性能,但其内在机制迄今仍缺乏深入理解。本文将随机优化器建模为随机动力系统,此类系统通常收敛至一个分形吸引子集合(而非单个点),且该集合具有更低的内蕴维度。基于这一联系,并受李雅普诺夫维数理论启发,我们提出一种新颖的维度概念,称之为“尖锐度维数”(sharpness dimension),并据此证明了一个泛化误差上界。我们的结果表明,在混沌区域中,泛化性能取决于完整海森矩阵谱(即全部特征值)以及其各阶主子式所构成的结构,从而揭示出一种复杂性——而此前研究中仅考虑的海森矩阵迹(trace)或谱范数(spectral norm)均无法刻画这种复杂性。我们在多种多层感知机(MLP)与Transformer模型上的实验不仅验证了本理论,还为近期所观察到的“顿悟现象”(grokking)提供了新的理解视角。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解释为何现代神经网络在大学习率、边缘稳定性的混沌优化动力学 regime 下反而获得更好的泛化性能——这一经验现象缺乏理论支撑,传统基于点收敛的泛化理论(如梯度范数、Hessian谱范数或迹)无法刻画该机制。
  • 关键思路
    将随机优化器建模为随机动力系统,指出其收敛目标不是单点而是低维分形吸引子;据此提出新几何量‘尖锐度维度’(sharpness dimension),它由完整Hessian谱及其偏微分行列式结构决定,并基于Lyapunov维数理论推导出首个依赖该维度的非平凡泛化界——突破了仅用迹(如Fisher-Rao)或最大特征值(如sharpness)的粗粒度刻画。
  • 其它亮点
    实验在多个MLP和Transformer架构(包括小型语言模型)上验证了sharpness dimension与测试误差强负相关;首次将grokking现象解释为优化轨迹从高维混沌吸引子向低维分形子结构的缓慢演化过程;未提及开源代码,但使用标准基准(CIFAR-10/100、TinyStories);值得深入的方向包括:sharpness dimension的高效估计方法、其与隐式正则化的因果关系、以及在分布式训练中的维度缩放律。
  • 相关研究
    Sharpness-Aware Minimization (Foret et al., NeurIPS 2021); The Role of Implicit Regularization in SGD (Neyshabur et al., ICLR 2015); On the Origin of Implicit Regularization in Stochastic Gradient Descent (Li et al., ICLR 2020); Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets (Power et al., arXiv 2022); Lyapunov Exponents and Neural Network Generalization (Chen et al., ICML 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问