CrossFuse: A Novel Cross Attention Mechanism based Infrared and Visible Image Fusion Approach

简介

多模态视觉信息融合旨在将多传感器数据集成到一个包含更多互补信息和较少冗余特征的单个图像中。然而，互补信息很难提取，特别是对于红外和可见图像，它们之间存在很大的相似性差距。常见的交叉注意力模块仅考虑相关性，相反，图像融合任务需要关注互补性（不相关性）。因此，在本文中，提出了一种新颖的交叉注意力机制（CAM）来增强互补信息。此外，提出了一种基于两阶段训练策略的融合方案，用于生成融合图像。对于第一阶段，为每种模态训练具有相同架构的两个自编码器网络。然后，在固定编码器的情况下，在第二阶段训练CAM和解码器。通过训练CAM，从两种模态提取的特征被集成到一个融合特征中，其中增强了互补信息并减少了冗余特征。最后，通过训练的解码器可以生成融合图像。实验结果表明，我们提出的融合方法与现有的融合网络相比具有SOTA融合性能。代码可在https://github.com/hli1221/CrossFuse获得。
图表
解决问题

本论文旨在解决多模态视觉信息融合中存在的信息互补性提取问题，特别是针对红外图像和可见光图像之间的相似性差异。
关键思路

本文提出了一种新的交叉注意力机制（CAM），以增强互补信息，并提出了一种基于两阶段训练策略的融合方案，通过固定的编码器和训练好的CAM将来自两种模态的特征集成到一个融合特征中，从而生成融合图像。
其它亮点

本文提出的方法在多模态图像融合中取得了SOTA表现，实验结果表明该方法能够增强互补信息并减少冗余特征。作者提供了代码并使用了公开数据集。
相关研究

在多模态图像融合领域，最近的相关研究包括：'Multi-modal image fusion using sparse representation and dictionary learning', 'Multimodal medical image fusion using a deep convolutional neural network'等。

CrossFuse: A Novel Cross Attention Mechanism based Infrared and Visible Image Fusion Approach

评论