FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba

简介

本文介绍了多模态图像融合的方法，旨在将不同模态的信息结合起来，创建具有全面信息和详细纹理的单一图像。然而，基于卷积神经网络的融合模型存在局限性，由于其专注于局部卷积操作，难以捕捉全局图像特征。而基于Transformer的模型在全局特征建模方面表现出色，但由于其二次复杂度，面临计算挑战。最近，选择性结构状态空间模型展现出了具有线性复杂度的长程依赖建模的显著潜力，为解决上述困境提供了有希望的途径。本文提出了一种新颖的动态特征增强方法FusionMamba，用于多模态图像融合。具体而言，我们设计了一种改进的高效Mamba模型，将高效的视觉状态空间模型与动态卷积和通道注意力相结合，这种改进的模型不仅保持了Mamba的性能和全局建模能力，而且减少了通道冗余，同时增强了局部增强能力。此外，我们设计了一个动态特征融合模块（DFFM），包括两个动态特征增强模块（DFEM）和一个跨模态融合Mamba模块（CMFM）。前者用于动态纹理增强和动态差异感知，而后者增强模态之间的相关特征并抑制冗余的跨模态信息。FusionMamba在各种多模态医学图像融合任务（CT-MRI，PET-MRI，SPECT-MRI），红外和可见光图像融合任务（IR-VIS）以及多模态生物医学图像融合数据集（GFP-PC）中取得了最先进的性能（SOTA），证明了我们的模型具有泛化能力。FusionMamba的代码可在https://github.com/millieXie/FusionMamba上获得。

图表

解决问题

本论文旨在解决多模态图像融合中的全局特征建模和计算复杂度的问题。

关键思路

论文提出了一种基于Selective Structured State Space Model的动态特征增强方法FusionMamba，结合了动态卷积和通道注意力，以及动态特征融合模块来提高多模态图像融合的性能。

其它亮点

FusionMamba在多个多模态医学图像融合任务（CT-MRI，PET-MRI，SPECT-MRI），红外和可见光图像融合任务（IR-VIS）以及多模态生物医学图像融合数据集（GFP-PC）上展现了最先进的性能。代码开源。

FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba

评论