MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion

简介

多模态图像融合（MMIF）将来自不同模态的有用信息映射到相同的表示空间中，从而产生信息丰富的融合图像。然而，现有的融合算法往往对多模态图像进行对称融合，导致融合结果中某些区域浅层信息丢失或偏向于单一模态。在本研究中，我们分析了不同模态中信息的空间分布差异，并证明了在同一网络中编码特征不利于实现多模态图像的同时深度特征空间对齐。为了解决这个问题，我们提出了一种多模态非对称UNet（MMA-UNet）。我们为不同模态单独训练了专门的特征编码器，并实现了跨尺度融合策略，以保持来自不同模态的特征在相同的表示空间中，确保信息融合过程的平衡。此外，进行了广泛的融合和下游任务实验，证明了MMA-UNet在融合红外和可见光图像信息方面的效率，产生了视觉自然和语义丰富的融合结果。其性能超过了现有的比较融合方法。
图表
解决问题

本论文旨在解决多模态图像融合中对称融合算法导致信息丢失或偏向某个模态的问题。同时，论文也试图证明在同一网络中编码不利于实现多模态图像的深度特征空间对齐。
关键思路

论文提出了一种多模态不对称UNet（MMA-UNet）的融合策略，分别为不同的模态训练专门的特征编码器，并实现了跨尺度融合策略，以保持不同模态的特征在同一表示空间中，确保信息融合的平衡性。
其它亮点

论文通过广泛的融合和下游任务实验，证明了MMA-UNet在融合红外和可见光图像信息方面的高效性，产生了自然视觉和语义丰富的融合结果。此外，论文还提供了开源代码。
相关研究

近期的相关研究包括：'Multi-modal image fusion using generative adversarial network'，'A novel multi-modal medical image fusion method based on convolutional neural network'等。

MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion

评论