MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion

2024年04月12日
  • 简介
    多模态图像融合(MMIF)旨在将来自不同模态的互补信息集成到单个融合图像中,以全面表示成像场景并促进下游视觉任务。近年来,由于深度神经网络的进步,在MMIF任务方面取得了显著进展。然而,现有方法无法有效和高效地提取受固有局部降维偏差(CNN)或二次计算复杂度(Transformers)约束的模态特定和模态融合特征。为了克服这个问题,我们提出了一种基于Mamba的双相融合(MambaDFuse)模型。首先,设计了一个双级特征提取器,通过从CNN和Mamba块提取低级和高级特征来捕获单模态图像的长程特征。然后,提出了一个双相特征融合模块,用于获取结合了不同模态的互补信息的融合特征。它使用通道交换方法进行浅层融合,使用增强的多模态Mamba(M3)块进行深层融合。最后,融合图像重建模块利用特征提取的反向变换生成融合结果。通过大量实验,我们的方法在红外-可见图像融合和医学图像融合方面取得了有希望的融合结果。此外,在统一的基准测试中,MambaDFuse还展示了在目标检测等下游任务中的改进性能。代码和检查点将在同行评审过程后提供。
  • 图表
  • 解决问题
    该论文旨在解决多模态图像融合中的特征提取问题,提出了一种基于Mamba的双相融合模型,旨在更有效地提取模态特定和模态融合特征。
  • 关键思路
    该论文提出了一种双层特征提取器和双相特征融合模块的组合,以提取单模态图像的长距离特征并融合不同模态的信息,使用浅层融合的通道交换方法和深层融合的增强多模态Mamba块,最终通过反向变换重建融合图像。
  • 其它亮点
    该论文在红外-可见图像融合和医学图像融合方面取得了有前途的融合结果,并在统一基准测试中展示了在物体检测等下游任务中的改进性能。该论文的代码和检查点将在同行评审后公开。
  • 相关研究
    在这个领域中,最近的相关研究包括:《基于深度学习的多模态医学图像融合方法》、《一种基于深度学习的红外和可见光图像融合方法》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论