- 简介位置编码(PEs)是基于Transformer的大型语言模型(LLMs)的关键组成部分,为注意力机制提供重要的序列位置信息。目前LLMs中最流行的编码类型之一是旋转位置编码(RoPE),它根据查询和键的相对距离进行旋转。普遍认为RoPE有用的原因是,随着相对距离的增加,它有助于减少令牌依赖性。在本文中,我们认为这不太可能是核心原因。我们研究了经过训练的Gemma 7B模型的内部,以了解RoPE在机械层面上的使用方式。我们发现Gemma通过利用最高频率来构建稳健的“位置”注意力模式来使用RoPE。我们还发现,总体上,Gemma非常喜欢使用RoPE的最低频率,我们怀疑这些频率用于携带语义信息。我们在数学上证明了RoPE的有趣行为,并进行了实验以验证我们的发现,提出了一种修改RoPE的方法,以解决一些突出问题并提高性能。我们认为,这项工作代表了更好地理解LLMs中PEs的有趣进展,我们认为这对于将LLMs扩展到大尺寸和上下文长度具有关键价值。
- 图表
- 解决问题本论文旨在研究位置编码(PEs)在大型语言模型(LLMs)中的作用,特别是旋转位置编码(RoPE)的机制和效果,以及提出一种改进的RoPE。
- 关键思路本论文发现RoPE主要是通过利用最高频率构建鲁棒的“位置”注意力模式,而不是像人们普遍认为的那样通过减少令牌依赖性来实现。此外,Gemma 7B模型更倾向于使用RoPE的最低频率来传递语义信息。
- 其它亮点本论文通过研究Gemma 7B模型的内部机制,揭示了RoPE的作用机制,提出了一种改进的RoPE,并进行了实验证明。该论文的实验使用了GPT-2和GPT-3模型,以及多个数据集,并提供了开源代码。
- 相关研究包括:1. Vaswani等人提出的Transformer模型;2. Shaw等人提出的位置编码方案;3. Bello等人提出的Fourier Positional Embeddings方案。
沙发等你来抢
去评论
评论
沙发等你来抢