Round and Round We Go! What makes Rotary Positional Encodings useful?

2024年10月08日
  • 简介
    位置编码(PEs)是基于Transformer的大型语言模型(LLMs)的关键组成部分,为注意力机制提供重要的序列位置信息。目前LLMs中最流行的编码类型之一是旋转位置编码(RoPE),它根据查询和键的相对距离进行旋转。普遍认为RoPE有用的原因是,随着相对距离的增加,它有助于减少令牌依赖性。在本文中,我们认为这不太可能是核心原因。我们研究了经过训练的Gemma 7B模型的内部,以了解RoPE在机械层面上的使用方式。我们发现Gemma通过利用最高频率来构建稳健的“位置”注意力模式来使用RoPE。我们还发现,总体上,Gemma非常喜欢使用RoPE的最低频率,我们怀疑这些频率用于携带语义信息。我们在数学上证明了RoPE的有趣行为,并进行了实验以验证我们的发现,提出了一种修改RoPE的方法,以解决一些突出问题并提高性能。我们认为,这项工作代表了更好地理解LLMs中PEs的有趣进展,我们认为这对于将LLMs扩展到大尺寸和上下文长度具有关键价值。
  • 图表
  • 解决问题
    本论文旨在研究位置编码(PEs)在大型语言模型(LLMs)中的作用,特别是旋转位置编码(RoPE)的机制和效果,以及提出一种改进的RoPE。
  • 关键思路
    本论文发现RoPE主要是通过利用最高频率构建鲁棒的“位置”注意力模式,而不是像人们普遍认为的那样通过减少令牌依赖性来实现。此外,Gemma 7B模型更倾向于使用RoPE的最低频率来传递语义信息。
  • 其它亮点
    本论文通过研究Gemma 7B模型的内部机制,揭示了RoPE的作用机制,提出了一种改进的RoPE,并进行了实验证明。该论文的实验使用了GPT-2和GPT-3模型,以及多个数据集,并提供了开源代码。
  • 相关研究
    相关研究包括:1. Vaswani等人提出的Transformer模型;2. Shaw等人提出的位置编码方案;3. Bello等人提出的Fourier Positional Embeddings方案。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论