Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings

向作者提问

NEW

简介

Transformer架构中的注意力机制是根据内容（即“什么”）以及序列中的位置（即“哪里”）将键（key）与查询（query）进行匹配的。我们提出了一种分析，表明在流行的RoPE旋转位置编码中，“什么”和“哪里”是纠缠在一起的。这种纠缠可能会影响模型性能，尤其是在决策需要分别依赖这两个因素独立匹配的情况下。我们提出了一种对RoPE的改进方案，称为极坐标位置编码（Polar Coordinate Position Embeddings），简称PoPE，该方案消除了“什么”与“哪里”之间的混淆。在一项仅需通过位置或内容进行索引的诊断任务中，PoPE表现出明显优势。在音乐、基因组和自然语言等自回归序列建模任务中，使用PoPE作为位置编码的Transformer模型，在评估损失（困惑度）和下游任务表现方面均优于使用RoPE的基线模型。在语言建模任务中，从124M到774M参数的不同模型规模下，PoPE的优势都持续存在。关键的是，PoPE展现出强大的零样本长度外推能力，而RoPE在测试时面对更长的序列长度时，若不进行微调或使用位置插值方法，其性能会显著下降。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决Transformer架构中位置编码（特别是RoPE）在建模内容（what）与位置（where）信息时的纠缠问题。这种纠缠会影响模型在需要独立处理位置或内容的任务上的表现。这是一个相对较新的问题，尤其在位置编码设计方面。
关键思路

提出了一种新的位置编码方法——极坐标位置编码（PoPE），将内容与位置信息在极坐标系中解耦，分别用模长和角度表示，从而消除RoPE中的what-where混淆。相比RoPE，PoPE在理论上更清晰地分离了两种信息，并在多个任务上进行了验证。
其它亮点

1. 在需要单独依赖位置或内容的诊断任务上，PoPE显著优于RoPE。 2. 在音乐、基因组和自然语言等多个领域的自回归建模任务中，PoPE在评估损失和下游任务性能上均优于RoPE。 3. PoPE在语言建模任务中表现出跨模型规模的稳定提升（从124M到774M参数）。 4. PoPE具有出色的零样本长度外推能力，而RoPE在测试时面对更长序列时性能显著下降。 5. 实验设计全面，涵盖多个领域和任务，但论文未明确提及是否开源代码。
相关研究

1. RoPE: Rotary Position Embedding (Su et al., 2021) 2. Positional Encoding as Learnable Sparse Spectrum for Implicit Neural Representation (Kim et al., 2023) 3. Length-Extrapolatable Transformer (Lei et al., 2023) 4. Dynamic Positional Encoding for Variable-Length Sequences (Zhang et al., 2022) 5. ALiBi: Attention with Linear Biases (Press et al., 2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问