Emergence and scaling laws in SGD learning of shallow neural networks

2025年04月28日
  • 简介
    我们研究了在线随机梯度下降法 (SGD) 的复杂性,用于学习一个具有 $P$ 个神经元的两层神经网络,其输入为各向同性的高斯数据: $f_*(\boldsymbol{x}) = \sum_{p=1}^P a_p \cdot \sigma(\langle\boldsymbol{x},\boldsymbol{v}_p^*\rangle)$, 其中 $\boldsymbol{x} \sim \mathcal{N}(0,\boldsymbol{I}_d)$。激活函数 $\sigma:\mathbb{R}\to\mathbb{R}$ 是一个信息指数为 $k_* > 2$(定义为埃尔米特展开中的最低阶数)的偶函数,$\{\boldsymbol{v}^*_p\}_{p\in[P]} \subset \mathbb{R}^d$ 是一组正交信号方向,且非负的第二层系数满足 $\sum_{p} a_p^2 = 1$。我们重点关注具有挑战性的“广泛宽度” regime ($P \gg 1$),并允许第二层条件数发散,特别地,包括幂律缩放 $a_p \asymp p^{-\beta}$(其中 $\beta \in \mathbb{R}_{\geq 0}$)作为特殊情况。我们对训练学生两层网络以最小化均方误差 (MSE) 目标的过程进行了精确分析,并明确识别出恢复每个信号方向的尖锐过渡时间。在幂律设置下,我们刻画了 MSE 损失相对于训练样本数量、SGD 步数以及学生神经网络参数数量的缩放律指数。我们的分析表明,尽管单个教师神经元的学习表现出突变式过渡,但 $P \gg 1$ 在不同时间尺度上出现的学习曲线的叠加导致了累积目标的平滑缩放律。
  • 图表
  • 解决问题
    该论文研究了在线随机梯度下降(SGD)在训练两层神经网络时的学习复杂性问题,特别是当网络宽度较大(P>>1)且激活函数为偶函数时的情况。这是一个挑战性的‘扩展宽度’问题,并探讨了信号方向的恢复以及损失函数随样本数和迭代步数的变化规律。
  • 关键思路
    论文的关键思路是通过分析SGD在训练过程中的动态行为,明确地识别出每个信号方向的恢复时间,并在功率律缩放的情况下刻画了均方误差(MSE)损失的缩放指数。与现有研究不同的是,本文深入探讨了条件数发散情况下的学习动力学,并揭示了个体神经元学习的突变特性如何在大量神经元(P>>1)的叠加下形成平滑的整体缩放定律。
  • 其它亮点
    实验设计关注于广泛的理论分析,包括对不同时间尺度上的学习曲线进行建模。此外,论文还考虑了功率律缩放系数β的影响,从而提供了一个更全面的理解框架。虽然没有提到具体的数据集或开源代码,但其理论结果可以推广到其他高维数据分布的研究中。未来值得继续研究的方向包括非高斯输入分布下的学习动力学,以及更复杂的网络结构(如多层网络)。
  • 相关研究
    最近的相关研究包括:1) 'Dynamics of Generalization in Neural Networks' 探讨了神经网络泛化能力的动力学特性;2) 'Scaling Laws for Neural Language Models' 研究了大规模语言模型中的缩放规律;3) 'The Emergent Properties of Large Neural Networks' 分析了大宽度网络中的涌现性质;4) 'Optimization Landscapes and Implicit Regularization of Stochastic Gradient Descent' 深入讨论了SGD优化路径的隐式正则化效应。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论