- 简介Transformer架构中的注意力机制是根据内容(即“什么”)以及序列中的位置(即“哪里”)将键(key)与查询(query)进行匹配的。我们提出了一种分析,表明在流行的RoPE旋转位置编码中,“什么”和“哪里”是纠缠在一起的。这种纠缠可能会影响模型性能,尤其是在决策需要分别依赖这两个因素独立匹配的情况下。我们提出了一种对RoPE的改进方案,称为极坐标位置编码(Polar Coordinate Position Embeddings),简称PoPE,该方案消除了“什么”与“哪里”之间的混淆。在一项仅需通过位置或内容进行索引的诊断任务中,PoPE表现出明显优势。在音乐、基因组和自然语言等自回归序列建模任务中,使用PoPE作为位置编码的Transformer模型,在评估损失(困惑度)和下游任务表现方面均优于使用RoPE的基线模型。在语言建模任务中,从124M到774M参数的不同模型规模下,PoPE的优势都持续存在。关键的是,PoPE展现出强大的零样本长度外推能力,而RoPE在测试时面对更长的序列长度时,若不进行微调或使用位置插值方法,其性能会显著下降。
-
- 图表
- 解决问题论文试图解决Transformer架构中位置编码(特别是RoPE)在建模内容(what)与位置(where)信息时的纠缠问题。这种纠缠会影响模型在需要独立处理位置或内容的任务上的表现。这是一个相对较新的问题,尤其在位置编码设计方面。
- 关键思路提出了一种新的位置编码方法——极坐标位置编码(PoPE),将内容与位置信息在极坐标系中解耦,分别用模长和角度表示,从而消除RoPE中的what-where混淆。相比RoPE,PoPE在理论上更清晰地分离了两种信息,并在多个任务上进行了验证。
- 其它亮点1. 在需要单独依赖位置或内容的诊断任务上,PoPE显著优于RoPE。 2. 在音乐、基因组和自然语言等多个领域的自回归建模任务中,PoPE在评估损失和下游任务性能上均优于RoPE。 3. PoPE在语言建模任务中表现出跨模型规模的稳定提升(从124M到774M参数)。 4. PoPE具有出色的零样本长度外推能力,而RoPE在测试时面对更长序列时性能显著下降。 5. 实验设计全面,涵盖多个领域和任务,但论文未明确提及是否开源代码。
- 1. RoPE: Rotary Position Embedding (Su et al., 2021) 2. Positional Encoding as Learnable Sparse Spectrum for Implicit Neural Representation (Kim et al., 2023) 3. Length-Extrapolatable Transformer (Lei et al., 2023) 4. Dynamic Positional Encoding for Variable-Length Sequences (Zhang et al., 2022) 5. ALiBi: Attention with Linear Biases (Press et al., 2021)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流