Training Infinitely Deep and Wide Transformers

向作者提问

NEW

简介

Transformer 已成为现代机器学习中占主导地位的模型架构，然而对其训练动力学的理论理解仍十分有限。本文构建了一个严格的数学框架，用于在平均场（mean-field）极限下分析基于梯度的 Transformer 训练过程；在此极限下，网络深度（即层数）与宽度（即注意力头数）均趋于无穷大。与 ResNet 的训练可被理解为对一个神经常微分方程（neural ODE）的控制不同，Transformer 的训练则对应于对一个神经偏微分方程（neural PDE）的控制——其根源在于注意力机制将多个词元（token）分布耦合在了一起。我们的平均场模型采用两类测度（measure）表示：一类是随网络层数演化而变化的词元分布；另一类是每一层所对应的注意力参数。我们严格证明了无限深 Transformer 前向传播过程的适定性（well-posedness），并借助函数空间中的常微分方程所刻画的流映射（flow maps），完整表征了词元分布的演化规律。通过伴随灵敏度分析（adjoint sensitivity analysis），我们推导出训练风险函数关于条件 Wasserstein 梯度（conditional Wasserstein gradient）的显式表达式，其中伴随变量满足一组反向常微分方程。我们进一步证明：在条件 Wasserstein 度量空间中，梯度流曲线存在且唯一，从而为基于梯度的 Transformer 训练奠定了坚实的理论基础。本文一项关键的技术贡献在于：首次给出了注意力机制下神经正切核（Neural Tangent Kernel, NTK）可逆性的充要条件——我们证明，NTK 可逆当且仅当若干 log-sum-exp 函数在仿射函数类模意义下线性无关；而该条件对多种实际常见的词元分布均成立，包括离散分布、均匀分布以及高斯混合分布。在此 NTK 可逆性假设下，我们进一步证明：只要初始损失足够小，梯度流必将收敛至全局最小值，从而彻底消除了优化景观中出现虚假局部极小值（spurious local minima）的可能性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决Transformer模型梯度训练动力学的理论基础缺失问题，特别是在深度（层数）与宽度（注意力头数）同时趋于无穷的mean-field极限下，如何严格刻画其参数更新、前向传播与损失最小化过程。该问题新颖：尽管ResNet已有神经ODE等成熟mean-field理论，但Transformer因自注意力机制引入跨token耦合，其连续极限本质上是PDE而非ODE，此前尚无严格数学框架。
关键思路

提出首个Transformer mean-field理论框架：将token序列建模为层间演化的概率测度流，注意力参数建模为层依赖的条件测度；前向传播由函数空间中的流映射ODE刻画；通过条件Wasserstein梯度与伴随敏感性分析导出可证伪的梯度流方程；关键创新在于将注意力机制的NTK可逆性归约为log-sum-exp函数系对仿射函数的线性无关性，并证明该条件在常见数据分布（离散、均匀、高斯混合）下自然成立。
其它亮点

理论贡献为主，无实验验证（属纯数学分析）；核心亮点包括：（1）首次建立Transformer无限深宽极限下的well-posed神经PDE模型；（2）给出NTK单射性的充要解析判据并验证其广泛适用性；（3）在小初值损失下证明全局收敛，排除spurious local minima；（4）为后续研究提供新工具——条件Wasserstein梯度流、注意力流形几何、以及log-sum-exp函数论在ML中的应用。未使用数据集，无代码开源（纯理论工作）。值得深入的方向：有限宽度/深度的误差界估计、实际训练中NTK条件的实证检验、以及该框架对稀疏注意力或线性注意力的拓展。
相关研究

Neural ODEs for ResNets (Chen et al., NeurIPS 2018); Mean-field limit of two-layer neural nets (Mei, Montanari & Nguyen, PNAS 2018); Wasserstein gradient flows in ML (Arjovsky et al., ICML 2017; Sanjabi et al., NeurIPS 2018); NTK theory for MLPs/CNNs (Jacot et al., NeurIPS 2018); Recent attempts on Transformer linearization (Yang et al., ICLR 2022; HaoChen et al., NeurIPS 2023), but none establish PDE limits or conditional Wasserstein analysis.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问