AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation

简介

深度学习的进展推动了遥感语义分割方面的显著进步。虽然注意力机制可以实现全局建模并利用上下文信息，但是面临高计算成本和需要基于窗口的操作的挑战，这些都会削弱其捕捉长程依赖关系的效果，从而影响其在遥感图像处理中的有效性。在本文中，我们提出了AMMUNet，这是一个基于UNet的框架，采用多尺度注意力映射融合，包括两个关键创新：颗粒化多头自注意力（GMSA）模块和注意力映射融合机制（AMMM）。与全局多头自注意力机制相比，GMSA可以高效地获取全局信息，同时大大减少计算成本。这是通过战略性地利用维度对应来对齐粒度和减少相对位置偏差参数来实现的，从而优化计算效率。所提出的AMMM通过使用固定的掩码模板将多尺度注意力映射有效地组合成统一的表示形式，从而实现全局注意力机制的建模。实验评估突出了我们方法的优越性，在具有挑战性的Vaihingen数据集上取得了75.48％的显著平均交集联合（mIoU）分数，在Potsdam数据集上取得了77.90％的杰出成绩，证明了我们的方法在精确的遥感语义分割方面的优越性。代码可在https://github.com/interpretty/AMMUNet获得。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决问题：论文旨在解决遥感语义分割中注意力机制的高计算成本和弱长程依赖性的问题。

关键思路

关键思路：论文提出了AMMUNet框架，采用多尺度注意力图合并，包括两个关键创新：粒度多头自注意力模块（GMSA）和注意力图合并机制（AMMM）。

其它亮点

其他亮点：论文在Vaihingen和Potsdam数据集上进行了实验评估，取得了优异的平均交并比（mIoU）分数，分别为75.48％和77.90％。代码已在GitHub上开源。

AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation

提问交流

提问交流