Disentangling and Integrating Relational and Sensory Information in Transformer Architectures

2024年05月26日
  • 简介
    Transformer架构通过实现一种神经信息传递的形式(由迭代的信息检索(注意力)和本地处理(位置感知MLP)组成)来处理序列。在这种通用的计算范式下,两种类型的信息至关重要:“感性”信息是关于单个对象的信息,“关系”信息描述对象之间的关系。标准注意力自然地编码前者,但并没有明确地编码后者。在本文中,我们提出了Transformer的扩展,其中多头注意力增加了两种不同类型的注意力头,每种头路由不同类型的信息。第一种类型是Transformer的标准注意机制,可以捕获对象级特征,而第二种类型是我们提出的新型注意机制,可以明确地捕获关系信息。这两种类型的注意力头具有不同的归纳偏差,使得得到的架构具有更高的效率和多样性。这种方法的优势在一系列任务中得到了实证的证明。
  • 图表
  • 解决问题
    本论文旨在扩展Transformer架构,通过增加一种新的注意力机制来显式地捕获关系信息,从而提高模型的效率和多样性。
  • 关键思路
    本文提出了一种新的Transformer架构扩展,其中多头注意力被增强了两种不同类型的注意力头,以路由不同类型的信息。第一种类型是Transformer的标准注意力机制,用于捕获对象级特征,而第二种类型则是一种新的注意力机制,用于显式地捕获关系信息。
  • 其它亮点
    本文通过在多个任务上进行实验,证明了新的Transformer架构的有效性和优越性。此外,作者还提供了开源代码和使用的数据集。
  • 相关研究
    在这个领域中,最近的相关研究包括《Attention Is All You Need》和《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论