Attention as a Hypernetwork

简介

Transformers在某些情况下可以推广到新问题实例，这些实例的组成部分可能在训练中遇到过，但其组合方式不同。是什么机制支持这种组合泛化能力？通过将多头注意力重新表述为超网络，我们揭示了一个低维潜在编码指定了键-查询特定操作。我们实证发现，这个潜在编码高度结构化，捕捉了网络执行的子任务信息。使用注意力作为超网络的框架，我们进一步提出了多头线性注意力的简单修改，增强了在一系列抽象推理任务上的组合泛化能力。特别地，我们介绍了Raven渐进矩阵人类智力测试的符号版本，展示了如何通过扩展模型大小和数据来实现组合泛化，并在变压器中产生功能结构化的潜在编码。
图表
解决问题

本论文旨在探究transformers在组合推理任务中的泛化能力，以及其背后的机制。
关键思路

通过将多头注意力重新表述为超网络，揭示了低维潜在代码如何指定键-查询特定操作，并发现这个潜在代码高度结构化，捕捉网络执行的子任务信息。通过将注意力作为超网络的框架，进一步提出了一种简单的修改多头线性注意力的方法，可以在一系列抽象推理任务上增强组合泛化能力。
其它亮点

论文在符号化版本的Raven Progressive Matrices人类智力测试上展示了模型大小和数据规模如何增强组合泛化能力，并产生了功能结构化的潜在代码。
相关研究

在相关研究中，最近也有一些关于transformers泛化能力的研究，如《How Can We Know What Language Models Know?》和《On the Relationship between Self-Attention and Convolutional Layers》等。

评论