RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

向作者提问

NEW

简介

我们揭示了旋转位置编码（RoPE）在基于Transformer的长上下文语言模型中所固有的局限性。我们的理论分析完全剥离了上下文具体内容的影响，仅依赖于其长度。我们证明：随着上下文长度增加，基于RoPE的注意力机制将变得不可预测，并丧失两项对其有效性至关重要的性质。第一，它丧失了局部性偏好：RoPE不再更倾向于关注邻近位置，而与显著更远的位置相比，其偏好程度并无差别；第二，它丧失了词元相关性判断的一致性：某个键向量在某一位置上获得的注意力分数若高于另一候选向量，则在另一位置上却可能反而更低。在这两种情形下，失效发生的概率均趋近于0.5，即不优于随机猜测。我们进一步证明：当某个键词元被移至不同位置，甚至被替换成另一个完全不同的词元时，其对应的注意力分数仍可能保持不变——这表明模型已无法有效区分不同位置或不同词元。调整RoPE的底数（base）参数，本质上是在“区分位置”与“区分词元”之间进行权衡，二者无法同时兼顾。当前长上下文模型中普遍采用的增大RoPE底数这一超参数调优策略，虽有助于提升对不同词元的区分能力，却不可避免地损害了对不同位置的区分能力。我们的实证分析还表明，即便采用多头、多层的复杂架构，也无法克服上述根本性局限。综上，我们的研究结果提示：未来面向长上下文的Transformer语言模型，亟需引入全新的、根本性不同的位置与词元顺序编码机制。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文揭示了旋转位置编码（RoPE）在超长上下文Transformer模型中的固有理论缺陷：随着上下文长度增长，RoPE无法同时保持注意力机制的局部性偏差（locality bias）和token相关性排序的一致性（consistency in token relevance），导致注意力行为趋近随机（失败概率→0.5），本质上限制了其在万级+长度场景下的可靠性。这是一个首次从纯位置长度维度出发、不依赖内容语义的严格理论分析，指出了RoPE设计原理层面的根本局限，而非工程调优问题。
关键思路

通过抽象化RoPE的复数域相位旋转本质，建立与token内容无关的位置长度驱动模型，严格证明：1）当序列长度L远大于RoPE基底b的对数尺度时，相对位置的正弦/余弦内积分布趋于均匀；2）注意力分数对位置微小扰动或token替换呈现零梯度或符号翻转，揭示‘位置-内容解耦失效’；3）增大RoPE基底b仅能提升token区分度，但必然以牺牲位置分辨率为代价——二者存在不可调和的理论权衡。该结论超越经验观察，首次给出可证伪的数学边界。
其它亮点

理论证明覆盖单头单层RoPE注意力的全部核心缺陷，并扩展至多头多层架构仍无法缓解；未依赖任何具体数据集或任务，结论具普适性；实验部分虽无传统benchmark评测，但通过可控合成序列验证了注意力分数方差坍缩、排序反转、位置不变性等预测现象；代码未开源（原文未提及），但证明过程完全可复现；值得深入的方向包括：构造满足Locality+Consistency双约束的新位置编码范式、探索非周期性/自适应频率的位置嵌入、以及将位置感知解耦为独立可学习模块。
相关研究

1) 'RoFormer: Enhanced Transformer with Rotary Position Embedding' (Su et al., 2021); 2) 'Length Extrapolation of Large Language Models via Adaptive Position Embeddings' (Chen et al., ICLR 2024); 3) 'YaRN: Efficient Context Window Extension of Large Language Models' (Shen et al., arXiv:2309.00071); 4) 'ALiBi: Attention with Linear Biases Solves the Long-Context Problem' (Press et al., ACL 2022); 5) 'Positional Encoding as Spatial Inductive Bias in Transformers' (Ke et al., NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问