Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation

简介

本文探讨了在Segformer架构框架下采用不同的token合并策略，并在多个语义分割和人体姿态估计数据集上进行了实验。使用transformer架构进行高分辨率图像的语义分割受到注意力计算复杂度与token数量的平方成正比的限制。解决这个挑战的方法是通过token合并来减少token数量，这在图像分类任务中已经展现出了显著的推理速度、训练效率和内存利用率的提升。值得注意的是，在不重新训练模型的情况下，我们在Cityscapes数据集上实现了61%的推理加速，同时保持了mIoU性能。因此，本文有助于在资源受限设备和实时应用中部署基于transformer的架构。
图表
解决问题

本论文旨在解决使用transformer架构进行高分辨率图像语义分割时注意力机制的二次计算复杂度问题。通过token合并减少token数量来解决这一问题，从而提高模型推理速度、训练效率和内存利用率。
关键思路

本论文提出了在Segformer架构中使用不同的token合并策略来解决transformer架构的注意力机制二次计算复杂度问题，从而在多个语义分割和人体姿态估计数据集上实现了加速推理和保持mIoU性能的结果。
其它亮点

本论文的实验设计了多个语义分割和人体姿态估计数据集，通过不同的token合并策略在Segformer架构上进行了实验，证明了本方法可以在不重新训练模型的情况下加速推理61%。此外，本论文的方法有望解决transformer架构在资源受限设备和实时应用中的部署问题。
相关研究

近期的相关研究包括：DeepLabv3+、U-Net++、OCRNet等。

Segformer++: Efficient Token-Merging Strategies for High-Resolution Semantic Segmentation

评论