CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion

向作者提问

NEW

简介

红外与可见光图像融合通过结合互补的模态信息，生成具备全天候感知能力的图像，从而提升智能无人系统的环境感知水平。现有方法要么专注于像素级融合而忽视了下游任务的适应性，要么通过级联的检测/分割模型隐式地学习固定的语义信息，难以灵活应对多样化的语义目标感知需求。为此，我们提出了CtrlFuse——一种可控制的图像融合框架，能够根据掩码提示实现交互式的动态融合。该模型包含一个多模态特征提取器、一个参考提示编码器（RPE）以及一个提示-语义融合模块（PSFM）。RPE通过利用输入的掩码引导对预训练分割模型进行微调，动态编码特定任务的语义提示；PSFM则将这些语义信息显式地注入到融合特征中。通过并行的分割分支与融合分支的协同优化，本方法实现了任务性能与融合质量的相互促进。实验结果表明，该方法在融合可控性和分割精度方面均达到先进水平，其适配后的任务分支甚至优于原始分割模型的表现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的红外与可见光图像融合方法大多关注像素级融合，忽视了下游任务的适应性；或者通过级联检测/分割模型隐式学习语义，缺乏对多样化语义目标感知需求的交互式动态响应能力。本文试图解决如何实现可控制、可交互且面向下游任务需求的图像融合问题，这是一个尚未被充分探索的新方向。
关键思路

提出CtrlFuse，一种基于掩码提示的可控图像融合框架。其核心创新在于引入参考提示编码器（RPE）和提示语义融合模块（PSFM），通过掩码引导微调预训练分割模型来动态编码任务特定语义，并显式地将这些语义注入融合过程，实现由语义提示驱动的动态融合。相比以往静态或隐式语义融合方法，该方法首次实现了用户可控、按需生成的交互式融合。
其它亮点

实验设计采用协同优化策略，联合训练融合分支与并行分割分支，实现融合质量与任务性能的相互增强。在公开数据集如TNO、FLIR和KAIST上验证了方法的有效性，结果表明CtrlFuse在融合可控性和分割精度上均达到SOTA水平，甚至适配后的任务分支优于原始分割模型。论文未明确提及代码是否开源，但其提示驱动机制为未来人机协同感知系统提供了新思路，值得进一步探索在多模态大模型中的扩展应用。
相关研究

1. Learning to Fuse: A Unified Image Fusion Network with Latent Space Interaction 2. DeepFuse: A Deep Unsupervised Approach for Exposure Correction of Images 3. U2Fusion: A Unified Unsupervised Image Fusion Network 4. RFNet: Recalibrating Feature Fusion for Infrared and Visible Image Fusion 5. Focus on What Matters: Mask-Guided Attention for Robust Semantic Segmentation in Autonomous Driving

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问