RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

2026年05月15日
  • 简介
    我们揭示了旋转位置编码(RoPE)在基于Transformer的长上下文语言模型中所固有的局限性。我们的理论分析完全剥离了上下文具体内容的影响,仅依赖于其长度。我们证明:随着上下文长度增加,基于RoPE的注意力机制将变得不可预测,并丧失两项对其有效性至关重要的性质。 第一,它丧失了局部性偏好:RoPE不再更倾向于关注邻近位置,而与显著更远的位置相比,其偏好程度并无差别; 第二,它丧失了词元相关性判断的一致性:某个键向量在某一位置上获得的注意力分数若高于另一候选向量,则在另一位置上却可能反而更低。 在这两种情形下,失效发生的概率均趋近于0.5,即不优于随机猜测。 我们进一步证明:当某个键词元被移至不同位置,甚至被替换成另一个完全不同的词元时,其对应的注意力分数仍可能保持不变——这表明模型已无法有效区分不同位置或不同词元。 调整RoPE的底数(base)参数,本质上是在“区分位置”与“区分词元”之间进行权衡,二者无法同时兼顾。当前长上下文模型中普遍采用的增大RoPE底数这一超参数调优策略,虽有助于提升对不同词元的区分能力,却不可避免地损害了对不同位置的区分能力。 我们的实证分析还表明,即便采用多头、多层的复杂架构,也无法克服上述根本性局限。 综上,我们的研究结果提示:未来面向长上下文的Transformer语言模型,亟需引入全新的、根本性不同的位置与词元顺序编码机制。
  • 作者讲解
  • 图表
  • 解决问题
    论文揭示了旋转位置编码(RoPE)在超长上下文Transformer模型中的固有理论缺陷:随着上下文长度增长,RoPE无法同时保持注意力机制的局部性偏差(locality bias)和token相关性排序的一致性(consistency in token relevance),导致注意力行为趋近随机(失败概率→0.5),本质上限制了其在万级+长度场景下的可靠性。这是一个首次从纯位置长度维度出发、不依赖内容语义的严格理论分析,指出了RoPE设计原理层面的根本局限,而非工程调优问题。
  • 关键思路
    通过抽象化RoPE的复数域相位旋转本质,建立与token内容无关的位置长度驱动模型,严格证明:1)当序列长度L远大于RoPE基底b的对数尺度时,相对位置的正弦/余弦内积分布趋于均匀;2)注意力分数对位置微小扰动或token替换呈现零梯度或符号翻转,揭示‘位置-内容解耦失效’;3)增大RoPE基底b仅能提升token区分度,但必然以牺牲位置分辨率为代价——二者存在不可调和的理论权衡。该结论超越经验观察,首次给出可证伪的数学边界。
  • 其它亮点
    理论证明覆盖单头单层RoPE注意力的全部核心缺陷,并扩展至多头多层架构仍无法缓解;未依赖任何具体数据集或任务,结论具普适性;实验部分虽无传统benchmark评测,但通过可控合成序列验证了注意力分数方差坍缩、排序反转、位置不变性等预测现象;代码未开源(原文未提及),但证明过程完全可复现;值得深入的方向包括:构造满足Locality+Consistency双约束的新位置编码范式、探索非周期性/自适应频率的位置嵌入、以及将位置感知解耦为独立可学习模块。
  • 相关研究
    1) 'RoFormer: Enhanced Transformer with Rotary Position Embedding' (Su et al., 2021); 2) 'Length Extrapolation of Large Language Models via Adaptive Position Embeddings' (Chen et al., ICLR 2024); 3) 'YaRN: Efficient Context Window Extension of Large Language Models' (Shen et al., arXiv:2309.00071); 4) 'ALiBi: Attention with Linear Biases Solves the Long-Context Problem' (Press et al., ACL 2022); 5) 'Positional Encoding as Spatial Inductive Bias in Transformers' (Ke et al., NeurIPS 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问