Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation

简介

我们提出了一个编码器-解码器注意力变换器，称为EDAFormer，由无嵌入变换器（EFT）编码器和利用我们的无嵌入注意力（EFA）结构的全注意力解码器组成。所提出的EFA是一种新颖的全局上下文建模机制，专注于实现全局非线性，而不是查询、键和值的特定角色。对于解码器，我们探索了优化的结构以考虑全局性，这可以提高语义分割性能。此外，我们提出了一种新颖的推断空间减少（ISR）方法，用于计算效率。与以前的空间减少注意力方法不同，我们的ISR方法在推理阶段进一步降低了键值分辨率，这可以缓解计算性能权衡差距，实现高效的语义分割。我们的EDAFormer在ADE20K、Cityscapes和COCO-Stuff等三个公共基准测试中，与现有的基于变换器的语义分割模型相比，展现了最先进的性能和高效的计算。此外，我们的ISR方法在Cityscapes数据集上将计算成本降低了高达61%，并且最小化了mIoU性能降级。代码可在https://github.com/hyunwoo137/EDAFormer上获得。
图表
解决问题

EDAFormer论文旨在解决语义分割任务中的计算效率和性能之间的平衡问题。
关键思路

EDAFormer提出了一种新的全局上下文建模机制——Embedding-Free Attention（EFA），并将其应用于Embedding-Free Transformer（EFT）编码器和全注意力解码器中。此外，该论文还提出了一种名为Inference Spatial Reduction（ISR）的新方法，以在推理阶段降低计算成本。
其它亮点

EDAFormer在三个公共基准测试（ADE20K，Cityscapes和COCO-Stuff）中表现出了与现有基于Transformer的语义分割模型相比的最先进性能，并且计算效率更高。ISR方法可以在Cityscapes数据集上将计算成本降低高达61％，同时最小化mIoU性能下降。该论文提供了开源代码。
相关研究

最近的相关研究包括：DeepLabv3，U-Net，以及其他基于Transformer的语义分割模型，如TransUNet和SETR。

Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation

评论