- 简介我们提出了一个编码器-解码器注意力变换器,称为EDAFormer,由无嵌入变换器(EFT)编码器和利用我们的无嵌入注意力(EFA)结构的全注意力解码器组成。所提出的EFA是一种新颖的全局上下文建模机制,专注于实现全局非线性,而不是查询、键和值的特定角色。对于解码器,我们探索了优化的结构以考虑全局性,这可以提高语义分割性能。此外,我们提出了一种新颖的推断空间减少(ISR)方法,用于计算效率。与以前的空间减少注意力方法不同,我们的ISR方法在推理阶段进一步降低了键值分辨率,这可以缓解计算性能权衡差距,实现高效的语义分割。我们的EDAFormer在ADE20K、Cityscapes和COCO-Stuff等三个公共基准测试中,与现有的基于变换器的语义分割模型相比,展现了最先进的性能和高效的计算。此外,我们的ISR方法在Cityscapes数据集上将计算成本降低了高达61%,并且最小化了mIoU性能降级。代码可在https://github.com/hyunwoo137/EDAFormer上获得。
- 图表
- 解决问题EDAFormer论文旨在解决语义分割任务中的计算效率和性能之间的平衡问题。
- 关键思路EDAFormer提出了一种新的全局上下文建模机制——Embedding-Free Attention(EFA),并将其应用于Embedding-Free Transformer(EFT)编码器和全注意力解码器中。此外,该论文还提出了一种名为Inference Spatial Reduction(ISR)的新方法,以在推理阶段降低计算成本。
- 其它亮点EDAFormer在三个公共基准测试(ADE20K,Cityscapes和COCO-Stuff)中表现出了与现有基于Transformer的语义分割模型相比的最先进性能,并且计算效率更高。ISR方法可以在Cityscapes数据集上将计算成本降低高达61%,同时最小化mIoU性能下降。该论文提供了开源代码。
- 最近的相关研究包括:DeepLabv3,U-Net,以及其他基于Transformer的语义分割模型,如TransUNet和SETR。
沙发等你来抢
去评论
评论
沙发等你来抢