On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective

简介

自从被提出以来，softmax注意力因其在各种任务中的表达能力和可扩展性，成为了现代Transformer架构的核心。然而，softmax注意力的主要缺点在于其内存需求和计算复杂度都与序列长度呈二次关系。为了克服这一问题，人们引入了线性注意力等方法，通过替代softmax的非线性形式来避免这种二次复杂度瓶颈。尽管这些线性注意力机制源自最初的softmax公式，但它们在下游任务的准确率上通常有所欠缺。虽然从直觉上来看，softmax在查询（query）和键（key）内积上的非线性具有优于其他非线性形式的特性，但为何会出现这种性能差异的问题一直未得到解答。本文通过推导softmax注意力的循环形式，证明了线性注意力其实是softmax注意力的一种近似。利用这种形式，softmax注意力的每一部分都可以用循环神经网络（RNN）的语言来描述。将softmax注意力表述为RNN之后，便可以对其各个组成部分进行消融实验，从而理解每一部分的重要性以及它们之间的相互作用。通过这种方式，我们的研究有助于解释为什么softmax注意力比其他方法更具表达能力。
图表
解决问题

论文试图解决线性注意力机制在下游任务准确率上通常不如softmax注意力的问题，并探讨为什么softmax注意力在表达能力上优于其他注意力机制。这个问题是当前自然语言处理和深度学习领域的一个重要且新兴的问题。
关键思路

论文的关键思路是通过推导softmax注意力的循环神经网络（RNN）形式，将softmax注意力近似为线性注意力的形式，从而解释softmax注意力为何更具有表达能力。通过将softmax注意力描述为RNN，作者能够对softmax注意力的各个组件进行消融实验，从而理解其重要性及交互机制。
其它亮点

1. 首次将softmax注意力表示为RNN形式，从而建立softmax注意力和线性注意力之间的理论联系。 2. 通过理论推导和实验验证，解释了softmax注意力优于线性注意力的原因。 3. 实验设计包括对注意力机制的组件进行详细分析，揭示了不同部分对模型表现的影响。 4. 论文为未来注意力机制的设计提供了理论指导，值得在模型压缩、高效注意力研究中进一步探索。
相关研究

1. Lin et al., 'Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention', ICML 2021 2. Katharopoulos et al., 'Transformers with Softmax-Free Self-Attention', NeurIPS 2020 3. Choromanski et al., 'Rethinking Attention with Performers', ICLR 2021 4. Wang et al., 'Linformer: Self-Attention with Linear Complexity', NAACL 2020 5. Shazeer, 'Fast Converging Attention with Energy-Based Normalization', arXiv:2020

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论