- 简介注意机制是大型语言模型(LLMs)的关键组成部分,它允许序列中的标记相互交互,但是它是无序的。加入位置编码(PE)使得可以按位置进行处理,例如关注第i个标记。然而,当前的PE方法使用标记计数来推导位置,因此不能推广到更高层次的抽象,例如关注第i个句子。在本文中,我们提出了一种新的位置编码方法,即上下文位置编码(CoPE),它允许位置根据上下文进行调整,只在模型确定的某些标记上递增位置。这允许更一般的位置寻址,例如关注第$i$个特定的单词、名词或句子。我们展示了CoPE可以解决选择性复制、计数和Flip-Flop任务,而流行的位置嵌入失败,并且提高了语言建模和编码任务的困惑度。
- 图表
- 解决问题论文旨在提出一种新的位置编码方法,使得模型能够更加灵活地定位到序列中的某个位置,包括单词、名词或句子等不同的抽象层次。同时,该方法还能够解决一些其他位置编码方法无法解决的问题。
- 关键思路提出一种新的位置编码方法——Contextual Position Encoding(CoPE),该方法根据模型的需求,仅在某些特定的标记上增加位置编码,从而使模型能够更加灵活地定位到不同抽象层次的位置。
- 其它亮点实验结果表明,CoPE方法能够解决一些其他位置编码方法无法解决的问题,并且在语言建模和编码任务中能够提高模型的性能。此外,论文还提供了开源代码和使用的数据集。
- 近期的相关研究包括《Attention Is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢