Round and Round We Go! What makes Rotary Positional Encodings useful?

简介

位置编码（PEs）是基于Transformer的大型语言模型（LLMs）的关键组成部分，为注意力机制提供重要的序列位置信息。目前LLMs中最流行的编码类型之一是旋转位置编码（RoPE），它根据查询和键的相对距离进行旋转。普遍认为RoPE有用的原因是，随着相对距离的增加，它有助于减少令牌依赖性。在本文中，我们认为这不太可能是核心原因。我们研究了经过训练的Gemma 7B模型的内部，以了解RoPE在机械层面上的使用方式。我们发现Gemma通过利用最高频率来构建稳健的“位置”注意力模式来使用RoPE。我们还发现，总体上，Gemma非常喜欢使用RoPE的最低频率，我们怀疑这些频率用于携带语义信息。我们在数学上证明了RoPE的有趣行为，并进行了实验以验证我们的发现，提出了一种修改RoPE的方法，以解决一些突出问题并提高性能。我们认为，这项工作代表了更好地理解LLMs中PEs的有趣进展，我们认为这对于将LLMs扩展到大尺寸和上下文长度具有关键价值。
图表
解决问题

本论文旨在研究位置编码（PEs）在大型语言模型（LLMs）中的作用，特别是旋转位置编码（RoPE）的机制和效果，以及提出一种改进的RoPE。
关键思路

本论文发现RoPE主要是通过利用最高频率构建鲁棒的“位置”注意力模式，而不是像人们普遍认为的那样通过减少令牌依赖性来实现。此外，Gemma 7B模型更倾向于使用RoPE的最低频率来传递语义信息。
其它亮点

本论文通过研究Gemma 7B模型的内部机制，揭示了RoPE的作用机制，提出了一种改进的RoPE，并进行了实验证明。该论文的实验使用了GPT-2和GPT-3模型，以及多个数据集，并提供了开源代码。
相关研究

相关研究包括：1. Vaswani等人提出的Transformer模型；2. Shaw等人提出的位置编码方案；3. Bello等人提出的Fourier Positional Embeddings方案。

Round and Round We Go! What makes Rotary Positional Encodings useful?

评论