ToSA: Token Selective Attention for Efficient Vision Transformers

简介

本文提出了一种新的令牌选择性关注方法ToSA，它可以识别需要被关注的令牌以及可以跳过变换器层的令牌。具体而言，一个令牌选择器解析当前的注意力图并预测下一层的注意力图，然后用于选择应该参与注意力操作的重要令牌。其余的令牌简单地绕过下一层，并与被关注的令牌连接起来重新形成完整的令牌集。通过这种方式，我们减少了二次计算和内存成本，因为较少的令牌参与了自我关注，同时在整个网络中保持了所有图像补丁的特征，从而使其可以用于密集预测任务。我们的实验表明，通过应用ToSA，我们可以显著减少计算成本，同时在ImageNet分类基准测试中保持准确性。此外，我们在NYU深度V2的单眼深度估计密集预测任务上进行了评估，并展示了我们可以使用较轻的骨干网络实现类似的深度预测准确性。
图表
解决问题

本文提出了一种新的令牌选择性注意力方法，ToSA，旨在降低自注意力机制中的计算和内存成本，同时保持所有图像块的特征，使其可用于密集预测任务。
关键思路

ToSA通过一个令牌选择器来解决问题，该选择器解析当前的注意力映射并预测下一层的注意力映射，然后用于选择应该参与注意力操作的重要令牌。其余的令牌只需绕过下一层并与参与注意力操作的令牌连接起来重新形成完整的令牌集。这种方法可以减少二次计算和内存成本。
其它亮点

本文的亮点包括：使用ToSA可以显著降低计算成本，同时在ImageNet分类基准测试中保持准确性；在NYU Depth V2的单目深度估计密集预测任务上，使用ToSA可以使用更轻量的骨干网获得类似的深度预测准确性。
相关研究

在这个领域中的相关研究包括：Self-Attention with Relative Position Representations、EfficientNet、MobileNetV3等。

ToSA: Token Selective Attention for Efficient Vision Transformers

评论