ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers

简介

本文提出了一种名为自适应局部全局合并（ALGM）的令牌减少方法，适用于使用普通视觉Transformer的语义分割网络。ALGM分为两个阶段合并令牌：（1）在第一个网络层中，它在一个小的局部窗口内合并相似的令牌，（2）在网络的一半处，它跨整个图像合并相似的令牌。这是基于我们的分析发现，在这些情况下，余弦相似度高的令牌可以在不降低分割质量的情况下合并。通过在多个数据集和网络配置上进行大量实验，我们展示了ALGM不仅可以将吞吐量显著提高高达100％，还可以将平均IoU提高高达+1.1，从而实现比现有方法更好的分割质量和效率的平衡。此外，我们的方法在推理过程中是自适应的，这意味着相同的模型可以根据应用程序实现最佳的效率或准确性。代码可在https://tue-mps.github.io/ALGM获得。
图表
解决问题

本文旨在提出一种基于Vision Transformers的语义分割网络的令牌减少方法，以提高网络的效率和精度。具体而言，论文试图解决的问题是如何在不降低分割质量的情况下减少令牌的数量。
关键思路

本文提出的Adaptive Local-then-Global Merging (ALGM)方法是一种两阶段的令牌合并方法。第一阶段在第一层网络中，它在一个小的局部窗口内合并相似的令牌；第二阶段在网络中途，它在整个图像范围内合并相似的令牌。这种方法的关键思路是通过分析发现，在这些情况下，具有高余弦相似度的令牌可以合并而不降低分割质量。
其它亮点

本文的亮点在于ALGM方法不仅可以显著提高网络的吞吐量高达100％，还可以将平均IoU提高高达+1.1，从而实现更好的分割质量和效率之间的权衡。此外，本方法在推理过程中是自适应的，这意味着可以根据应用程序使用相同的模型来实现最佳效率或准确性。本文还提供了开源代码，可以在https://tue-mps.github.io/ALGM上获得。
相关研究

最近在这个领域中，还有一些相关研究。例如，一些研究关注于使用卷积神经网络进行语义分割，如《Fully Convolutional Networks for Semantic Segmentation》；另一些研究关注于使用Transformer进行图像分类，如《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论