- 简介受布洛赫球表示法的启发,我们提出了一种新的三维球形旋转位置编码方法,称为3D旋转位置编码(3D-RPE)。3D-RPE是广泛使用的2D旋转位置编码(RoPE)的先进版本,具有两个主要优点,适用于建模长上下文:可控的长期衰减和改进的位置分辨率。对于可控的长期衰减,3D-RPE允许在块大小内调节长期衰减,确保在远距离相对位置的标记之间建模相对位置信息。对于增强的位置分辨率,3D-RPE可以缓解RoPE上位置插值引起的位置分辨率降低。我们在长上下文自然语言理解(NLU)和长序列语言建模(LM)任务上进行了实验。从实验结果来看,3D-RPE在RoPE上取得了性能提升,特别是在长上下文NLU任务中。
- 图表
- 解决问题本论文旨在解决长上下文建模中的相对位置编码问题,提出了一种新的三维旋转位置编码方法(3D-RPE),以提高建模性能。
- 关键思路3D-RPE是一种高级的2D旋转位置编码(RoPE)方法,具有可控的长期衰减和改善位置分辨率的优点。
- 其它亮点论文在长上下文自然语言理解和长序列语言建模任务上进行了实验,并证明了3D-RPE相对于RoPE的性能提升。论文还开源了代码。
- 最近的相关研究包括《Attention is All You Need》、《Transformer-XL》等。
沙发等你来抢
去评论

评论
沙发等你来抢