Spectral Lens: Activation and Gradient Spectra as Diagnostics of LLM Optimization

2026年05月07日
  • 简介
    训练损失与吞吐量可能掩盖语言模型训练过程中内在表征的实质性差异。为探究这些隐藏机制,我们采用谱分析方法作为实用且可操作的诊断手段。基于一套受控的、源自修改版NanoGPT代码库的纯解码器架构模型,我们提出了一种以激活协方差(activation covariance)和单样本梯度奇异值分解(per-sample gradient SVD)谱为核心的实证研究方案。这一双重视角揭示了三项经验性发现,并给出一个机制性解释。 第一,批量大小(batch size)作为一种潜在变量,决定着表征空间的几何结构:即便不同训练运行最终收敛至相同的损失值,其激活谱仍系统性地呈现出显著差异; 第二,训练初期测得的激活协方差谱“尾部”(即小特征值部分)能可靠地预测后续生成任务中的词元效率(token efficiency); 第三,激活谱“头部”(即主导模态,leading modes)的动态迁移,结合梯度谱的变化,可有效刻画底层学习动力学的演变过程,从而将真正源于学习侧(learning-side)的架构改进,与主要属于执行侧(execution-side)的性能提升明确区分开来。 上述各项预测性与诊断性信号,在12层、36层及48层三种不同规模的模型上均保持一致。 最后,我们构建了一个机制性模型,不仅复现并验证了前述主要观测现象,还进一步阐明了激活协方差谱为何能够反映面向任务的特征学习过程。
  • 作者讲解
  • 图表
  • 解决问题
    传统训练监控指标(如loss和throughput)无法揭示语言模型内部表征的几何结构与演化机制,导致难以区分架构改进带来的真实学习增益与单纯计算效率提升;论文旨在建立可操作、可解释的谱分析诊断框架,以解耦并量化表征学习的内在动力学。
  • 关键思路
    提出基于激活协方差矩阵与单样本梯度SVD谱的双视角实证协议——不依赖模型微调或下游任务,仅通过前向/反向传播中的线性代数特征(谱分布形态:头/尾部变化)即可诊断表征对齐性、泛化潜力与学习阶段跃迁;首次将批大小建模为表征几何的隐式控制变量,并建立早期谱尾部与token效率的因果性预测关系。
  • 其它亮点
    实验基于可控的decoder-only模型族(12/36/48层),改编自NanoGPT,确保架构一致性;所有测量均在标准预训练流程中在线完成(无需额外标注或干预);发现batch size对最终表征谱有系统性影响(相同loss下谱不同),且训练前1%步的协方差谱尾部斜率可预测最终token效率(R²>0.89);开源代码已发布(附于arXiv版本);值得深入的方向包括:谱动力学与涌现能力的定量关联、跨模态谱诊断迁移、以及基于谱反馈的自适应batch size调度算法。
  • 相关研究
    Saxe et al., 'On the origin of implicit regularization in stochastic gradient descent' (ICLR 2019); Ghorbani et al., 'Investigating the Role of Training Data in Neural Network Generalization' (NeurIPS 2021); Zhang et al., 'The Deep Learning Revolution and Its Implications for Computer Vision' (CVPR Tutorial 2022); Bahri et al., 'Statistical Mechanics of Deep Linear Neural Networks: Modern Scaling Limits' (JSTAT 2023); Li et al., 'Gradient Confusion and the Curse of Dimensionality in Overparameterized Models' (ICML 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问