- 简介红外与可见光图像融合通过结合互补的模态信息,生成具备全天候感知能力的图像,从而提升智能无人系统的环境感知水平。现有方法要么专注于像素级融合而忽视了下游任务的适应性,要么通过级联的检测/分割模型隐式地学习固定的语义信息,难以灵活应对多样化的语义目标感知需求。为此,我们提出了CtrlFuse——一种可控制的图像融合框架,能够根据掩码提示实现交互式的动态融合。该模型包含一个多模态特征提取器、一个参考提示编码器(RPE)以及一个提示-语义融合模块(PSFM)。RPE通过利用输入的掩码引导对预训练分割模型进行微调,动态编码特定任务的语义提示;PSFM则将这些语义信息显式地注入到融合特征中。通过并行的分割分支与融合分支的协同优化,本方法实现了任务性能与融合质量的相互促进。实验结果表明,该方法在融合可控性和分割精度方面均达到先进水平,其适配后的任务分支甚至优于原始分割模型的表现。
-
- 图表
- 解决问题现有的红外与可见光图像融合方法大多关注像素级融合,忽视了下游任务的适应性;或者通过级联检测/分割模型隐式学习语义,缺乏对多样化语义目标感知需求的交互式动态响应能力。本文试图解决如何实现可控制、可交互且面向下游任务需求的图像融合问题,这是一个尚未被充分探索的新方向。
- 关键思路提出CtrlFuse,一种基于掩码提示的可控图像融合框架。其核心创新在于引入参考提示编码器(RPE)和提示语义融合模块(PSFM),通过掩码引导微调预训练分割模型来动态编码任务特定语义,并显式地将这些语义注入融合过程,实现由语义提示驱动的动态融合。相比以往静态或隐式语义融合方法,该方法首次实现了用户可控、按需生成的交互式融合。
- 其它亮点实验设计采用协同优化策略,联合训练融合分支与并行分割分支,实现融合质量与任务性能的相互增强。在公开数据集如TNO、FLIR和KAIST上验证了方法的有效性,结果表明CtrlFuse在融合可控性和分割精度上均达到SOTA水平,甚至适配后的任务分支优于原始分割模型。论文未明确提及代码是否开源,但其提示驱动机制为未来人机协同感知系统提供了新思路,值得进一步探索在多模态大模型中的扩展应用。
- 1. Learning to Fuse: A Unified Image Fusion Network with Latent Space Interaction 2. DeepFuse: A Deep Unsupervised Approach for Exposure Correction of Images 3. U2Fusion: A Unified Unsupervised Image Fusion Network 4. RFNet: Recalibrating Feature Fusion for Infrared and Visible Image Fusion 5. Focus on What Matters: Mask-Guided Attention for Robust Semantic Segmentation in Autonomous Driving
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流