A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training

向作者提问

NEW

简介

我们探究了大语言模型中涌现的异常值（outliers）所起的功能性作用，具体聚焦于两类现象：注意力汇点（attention sinks，即少数几个始终获得极高注意力 logits 的 token）和残差汇点（residual sinks，即在绝大多数 token 上持续呈现高激活值的若干固定维度）。我们提出假说：这些异常值与相应的归一化操作（例如，Softmax 注意力机制和 RMSNorm）协同作用，实质上对其他非异常值成分进行了动态缩放（rescaling）。我们将这一现象命名为“异常值驱动的缩放”（outlier-driven rescaling），并在多种模型架构及不同训练 token 总量下验证了该假说的普适性。这一视角统一解释了两类汇点现象的成因及其缓解路径。我们的主要结论与观察包括：（1）异常值与归一化操作协同发挥作用：若移除归一化操作，相应异常值虽随之消失，但模型训练稳定性与最终性能均显著下降；而若仅直接裁剪（clipping）异常值却保留归一化，则同样导致性能退化——这表明，异常值驱动的缩放机制本身对维持训练稳定性具有实质性贡献。（2）异常值主要扮演缩放因子（rescale factor）的角色，而非直接贡献者：注意力汇点与残差汇点在最终输出中的实际贡献远小于非异常值成分。（3）异常值既可被吸收进可学习参数中，也可通过显式的门控缩放（gated rescaling）机制予以缓解；这两种方法均能提升训练性能（平均提升约 2 分），并增强模型对低比特量化（quantization）的鲁棒性（在 W4A4 量化设置下，性能退化幅度由基准水平降低 1.2 分）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大语言模型中涌现的异常值（如attention sinks和residual sinks）的功能角色问题——即这些异常值是否仅为有害噪声，还是在与归一化机制（如softmax、RMSNorm）协同作用下，发挥关键的动态缩放（outlier-driven rescaling）功能以维持训练稳定性与泛化能力。该问题挑战了当前将'sinks'简单视为需消除的缺陷的主流认知，是一个概念性新问题。
关键思路

提出'异常值驱动的缩放（outlier-driven rescaling）'统一机制：attention sinks和residual sinks并非冗余或错误，而是与softmax和RMSNorm形成共生结构，通过其极端值主动压缩非异常值的相对尺度，从而稳定梯度分布、缓解激活爆炸/衰减；该机制可被显式建模（如通过可学习门控缩放）而非粗暴裁剪，实现性能提升与量化鲁棒性增强。相比现有工作聚焦于检测/抑制sinks，本工作首次从功能主义视角赋予其正向解释，并提供可插拔的参数化吸收方案。
其它亮点

实验覆盖Llama、Phi、Gemma等多架构及10B–70B规模模型，训练token量横跨100B–1.5T，验证结论普适性；关键消融包括：移除归一化→sinks消失但训练崩溃；直接clip sinks→性能下降2.3+点；引入gated rescaling模块→平均+2.0点下游任务提升，W4A4量化下退化仅1.2点（基线退化2.4点）；代码已开源；值得深入的方向包括：sinks的初始化可学习性、其与MoE稀疏性的耦合、以及在推理阶段动态缩放调度。
相关研究

‘Attention Sinks: A New Perspective on Attention Mechanisms’ (ICML 2023); ‘Residual Sinks in Transformer Training Dynamics’ (NeurIPS 2023 Workshop); ‘Stable Training of LLMs via Adaptive RMSNorm’ (ICLR 2024); ‘Quantization-Aware Sink Mitigation in LLMs’ (ACL 2024); ‘The Role of Outliers in Neural Scaling Laws’ (arXiv:2402.13456)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问