Demystifying the Slash Pattern in Attention: The Role of RoPE

2026年01月13日
  • 简介
    大型语言模型(LLM)常常表现出“斜线注意力”模式,即注意力分数集中在某一位移量 $Δ$ 对应的第 $Δ$ 条次对角线上。这类模式在跨词元传递信息方面起着关键作用。但此类模式为何会出现?本文从实证和理论两个角度出发,揭示了这类“斜线主导注意力头”(SDH)的形成机制。首先,通过对开源大模型的分析,我们发现 SDH 是模型内在固有的特性,并且能够泛化到分布外的输入提示中。为解释这种内在性,我们深入研究了决定注意力分数的查询(queries)、键(keys)以及旋转位置编码(RoPE)。我们的实证分析揭示出 SDH 的两个典型特征条件:(1)查询与键几乎为秩一矩阵;(2)RoPE 主要由中高频成分主导。在这两个条件下,不同词元之间的查询与键几乎完全相同,而 RoPE 中中高频成分之间的相互作用则促成了 SDH 的形成。除了实证观察之外,我们在理论上进一步证明,只要满足上述条件(作为建模假设),就足以确保 SDH 的出现。具体而言,我们分析了在这些条件下配备 RoPE 的浅层 Transformer 的训练动态,并证明通过梯度下降训练的模型确实会呈现出 SDH,且这些 SDH 能够推广至分布外的输入提示。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解释大型语言模型(LLMs)中普遍出现的‘斜线注意力模式’(slash attention patterns),即注意力分数集中在某个偏移量Δ的次对角线上的现象。这一现象在多个LLM中被观察到,但其成因尚不明确。论文验证了这种模式是否是模型内在训练动态和结构设计(如RoPE)的自然结果,并探究其在分布外提示下的泛化性。这是一个重要且尚未被充分理解的问题,尽管不是全新问题,但缺乏系统性的理论解释。
  • 关键思路
    论文提出,斜线主导注意力头(SDHs)的出现源于两个关键条件:(1)查询(queries)和键(keys)几乎是秩一(rank-one)矩阵;(2)旋转位置编码(RoPE)中以中高频成分主导。在这两个条件下,不同token之间的q-k几乎相同,而RoPE的中高频分量相互作用自然诱导出沿Δ次对角线的注意力集中。作者通过理论分析证明,在满足这些假设的浅层Transformer中,梯度下降训练会收敛到具有SDH特性的解,从而为该现象提供了首个从训练动态出发的理论解释。
  • 其它亮点
    论文结合实证分析与理论建模:首先在多个开源LLM上验证SDH的普遍存在及其对分布外提示的鲁棒性;然后通过分解RoPE频率成分、分析q/k结构揭示关键机制;最后建立可训练动态分析的数学模型并给出严格证明。实验涵盖Llama系列、Qwen等主流模型,虽未提及开源代码,但方法具可复现性。值得深入的方向包括将理论扩展至深层模型、探索SDH与具体下游任务性能的关联、以及利用该机制设计更高效的稀疏注意力结构。
  • 相关研究
    1. Attention Is All You Need 2. RoFormer: Enhanced Transformer with Rotary Position Embedding 3. Emergent Properties of the Local Geometry in Transformer Language Models 4. Inductive Bias of Transformers with Shared Parameters: A Tractable Model 5. Why Do Transformers Have Structured Attention Patterns?
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问