Disentangling and Integrating Relational and Sensory Information in Transformer Architectures

简介

Transformer架构通过实现一种神经信息传递的形式（由迭代的信息检索（注意力）和本地处理（位置感知MLP）组成）来处理序列。在这种通用的计算范式下，两种类型的信息至关重要：“感性”信息是关于单个对象的信息，“关系”信息描述对象之间的关系。标准注意力自然地编码前者，但并没有明确地编码后者。在本文中，我们提出了Transformer的扩展，其中多头注意力增加了两种不同类型的注意力头，每种头路由不同类型的信息。第一种类型是Transformer的标准注意机制，可以捕获对象级特征，而第二种类型是我们提出的新型注意机制，可以明确地捕获关系信息。这两种类型的注意力头具有不同的归纳偏差，使得得到的架构具有更高的效率和多样性。这种方法的优势在一系列任务中得到了实证的证明。
图表
解决问题

本论文旨在扩展Transformer架构，通过增加一种新的注意力机制来显式地捕获关系信息，从而提高模型的效率和多样性。
关键思路

本文提出了一种新的Transformer架构扩展，其中多头注意力被增强了两种不同类型的注意力头，以路由不同类型的信息。第一种类型是Transformer的标准注意力机制，用于捕获对象级特征，而第二种类型则是一种新的注意力机制，用于显式地捕获关系信息。
其它亮点

本文通过在多个任务上进行实验，证明了新的Transformer架构的有效性和优越性。此外，作者还提供了开源代码和使用的数据集。
相关研究

在这个领域中，最近的相关研究包括《Attention Is All You Need》和《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。

Disentangling and Integrating Relational and Sensory Information in Transformer Architectures

评论