- 简介在遥感(RS)领域,语义分割随着多模态数据的引入取得了显著进展,特别是RGB影像与数字表面模型(DSM)的融合,为地物提供了互补的上下文和结构信息。然而,RGB与DSM的融合通常面临两个主要限制:由于架构冗余导致计算复杂度增加,以及模态不对齐引起的分割性能下降。这些问题在复杂的城区环境中尤为突出,因为精确的多模态融合对于实现高质量分割至关重要。为了解决上述问题,我们提出了不对称多模态网络(AMMNet),这是一种新颖的不对称架构,通过为RGB-DSM输入对专门设计的三个模块,实现了鲁棒且高效的语义分割。为了减少架构冗余,不对称双编码器(ADE)模块根据各模态的特性分配表示能力,对RGB影像采用更深的编码器以捕捉丰富的上下文信息,而对DSM则使用轻量级编码器以提取稀疏的结构特征。此外,为了促进模态对齐,不对称先验融合(APF)模块在融合过程中引入模态感知先验矩阵,从而生成具有结构感知能力的上下文特征。同时,分布对齐(DA)模块通过最小化特征分布的散度来提升跨模态兼容性。在ISPRS Vaihingen和Potsdam数据集上的大量实验表明,AMMNet在多模态网络中达到了最先进的分割精度,同时降低了计算与内存开销。
-
- 图表
- 解决问题论文试图解决遥感图像中语义分割任务中RGB图像和数字表面模型(DSM)多模态融合的两个主要问题:1)由于架构冗余导致的计算复杂度增加;2)由于模态不对齐导致的分割性能下降。这个问题在复杂城市环境中尤为突出,因此是一个具有挑战性且尚未完全解决的问题。
- 关键思路论文提出了一种新的非对称多模态网络(AMMNet),通过三个模块设计:1)非对称双编码器(ADE)根据模态特性分配不同编码能力,RGB使用深层网络,DSM使用轻量级网络;2)非对称先验融合器(APF)引入模态感知先验矩阵,提升结构感知的上下文融合;3)分布对齐模块(DA)通过最小化特征分布差异增强跨模态兼容性。这一思路在结构设计上具有创新性,兼顾效率与性能。
- 其它亮点1. 在ISPRS Vaihingen和Potsdam遥感数据集上进行了广泛实验,验证了AMMNet在分割精度、计算效率和内存占用方面的优势。 2. AMMNet在多模态语义分割领域达到了SOTA水平。 3. 提出的设计模块(ADE、APF、DA)具有通用性,可迁移到其他多模态任务中。 4. 论文未提及是否开源代码,但数据集为公开标准数据集,便于复现和后续研究。
- 1. 《FusionSeg: Learning to Combine Semantic Segmentations from RGB and Thermal Images》 2. 《Cross-Modal Feature Learning for RGB-D Semantic Segmentation Using Attention-Guided Fusion》 3. 《Deep Multimodal Fusion for Semantic Segmentation in Remote Sensing》 4. 《A Survey on Deep Learning-based Multimodal Fusion Techniques for Remote Sensing Data》 5. 《RGB-NIR Semantic Segmentation via Cross-Modal Consistency Regularization》
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流