- 简介Transformer架构通过实现一种神经信息传递的形式(由迭代的信息检索(注意力)和本地处理(位置感知MLP)组成)来处理序列。在这种通用的计算范式下,两种类型的信息至关重要:“感性”信息是关于单个对象的信息,“关系”信息描述对象之间的关系。标准注意力自然地编码前者,但并没有明确地编码后者。在本文中,我们提出了Transformer的扩展,其中多头注意力增加了两种不同类型的注意力头,每种头路由不同类型的信息。第一种类型是Transformer的标准注意机制,可以捕获对象级特征,而第二种类型是我们提出的新型注意机制,可以明确地捕获关系信息。这两种类型的注意力头具有不同的归纳偏差,使得得到的架构具有更高的效率和多样性。这种方法的优势在一系列任务中得到了实证的证明。
- 图表
- 解决问题本论文旨在扩展Transformer架构,通过增加一种新的注意力机制来显式地捕获关系信息,从而提高模型的效率和多样性。
- 关键思路本文提出了一种新的Transformer架构扩展,其中多头注意力被增强了两种不同类型的注意力头,以路由不同类型的信息。第一种类型是Transformer的标准注意力机制,用于捕获对象级特征,而第二种类型则是一种新的注意力机制,用于显式地捕获关系信息。
- 其它亮点本文通过在多个任务上进行实验,证明了新的Transformer架构的有效性和优越性。此外,作者还提供了开源代码和使用的数据集。
- 在这个领域中,最近的相关研究包括《Attention Is All You Need》和《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢