Attention as a Hypernetwork

2024年06月09日
  • 简介
    Transformers在某些情况下可以推广到新问题实例,这些实例的组成部分可能在训练中遇到过,但其组合方式不同。是什么机制支持这种组合泛化能力?通过将多头注意力重新表述为超网络,我们揭示了一个低维潜在编码指定了键-查询特定操作。我们实证发现,这个潜在编码高度结构化,捕捉了网络执行的子任务信息。使用注意力作为超网络的框架,我们进一步提出了多头线性注意力的简单修改,增强了在一系列抽象推理任务上的组合泛化能力。特别地,我们介绍了Raven渐进矩阵人类智力测试的符号版本,展示了如何通过扩展模型大小和数据来实现组合泛化,并在变压器中产生功能结构化的潜在编码。
  • 图表
  • 解决问题
    本论文旨在探究transformers在组合推理任务中的泛化能力,以及其背后的机制。
  • 关键思路
    通过将多头注意力重新表述为超网络,揭示了低维潜在代码如何指定键-查询特定操作,并发现这个潜在代码高度结构化,捕捉网络执行的子任务信息。通过将注意力作为超网络的框架,进一步提出了一种简单的修改多头线性注意力的方法,可以在一系列抽象推理任务上增强组合泛化能力。
  • 其它亮点
    论文在符号化版本的Raven Progressive Matrices人类智力测试上展示了模型大小和数据规模如何增强组合泛化能力,并产生了功能结构化的潜在代码。
  • 相关研究
    在相关研究中,最近也有一些关于transformers泛化能力的研究,如《How Can We Know What Language Models Know?》和《On the Relationship between Self-Attention and Convolutional Layers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论