Bridging the Divide: Reconsidering Softmax and Linear Attention

2024年12月09日
  • 简介
    在现代视觉变换器设计中广泛采用的Softmax注意力机制能够有效地捕捉长距离的视觉信息;然而,在处理高分辨率输入时,它会产生过高的计算成本。相比之下,线性注意力天然具有线性复杂度,有巨大的潜力扩展到更高分辨率的图像上。然而,线性注意力不尽如人意的性能极大地限制了其在各种场景中的实际应用。在本文中,我们通过新颖的理论分析向前迈进了一步,以缩小线性注意力与Softmax注意力之间的差距,这些分析揭示了性能差异背后的核心因素。具体而言,我们提出了两个关键视角来理解和缓解线性注意力的局限性:单射性质和局部建模能力。首先,我们证明了线性注意力不具备单射性质,这容易将不同的查询向量分配相同的注意力权重,从而导致严重的语义混淆,因为不同的查询对应相同的输出。其次,我们确认有效的局部建模对于Softmax注意力的成功至关重要,而线性注意力在这方面表现不足。上述两个根本差异显著地导致了这两种注意力范式之间的差异,这一点在本文中得到了大量的实证验证。此外,更多的实验结果表明,只要赋予线性注意力这两个特性,它就可以在保持较低计算复杂度的同时,在各种任务中超越Softmax注意力。代码可在 https://github.com/LeapLabTHU/InLine 获取。
  • 图表
  • 解决问题
    该论文旨在解决线性注意力机制在处理高分辨率图像时性能不佳的问题,同时保持较低的计算复杂度。这是一个实际应用中的重要问题,因为线性注意力虽然计算效率高,但其性能往往不如Softmax注意力。
  • 关键思路
    论文通过理论分析和实验证明,线性注意力机制存在两个主要问题:非单射性和局部建模能力不足。为了解决这些问题,作者提出了增强线性注意力的方法,使其在各种任务上能够超越Softmax注意力,同时保持较低的计算复杂度。
  • 其它亮点
    1. 通过理论分析证明了线性注意力的非单射性和局部建模能力不足是导致其性能不佳的主要原因。 2. 提出了具体的改进方法,使线性注意力在多个任务上表现优于Softmax注意力。 3. 实验设计包括多种视觉任务,如图像分类、目标检测等,验证了方法的有效性。 4. 提供了开源代码,便于复现和进一步研究。 5. 指出未来的研究方向,如如何进一步优化线性注意力的局部建模能力。
  • 相关研究
    1. "Vision Transformer (ViT): Perform Image Classification with Pure Transformers" - 这篇论文介绍了Vision Transformer的基本架构,使用Softmax注意力机制。 2. "Linear Attention Recurrent Neural Networks" - 探讨了线性注意力在RNN中的应用。 3. "Performer: Generalized Attention with RFF Kernels" - 提出了一种基于随机傅里叶特征的高效注意力机制。 4. "Sinkhorn Attention" - 通过Sinkhorn归一化改进线性注意力机制的性能。 5. "Efficient Attention: Attention with Linear Complexities" - 讨论了多种降低注意力机制计算复杂度的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论