UniRGB-IR: A Unified Framework for Visible-Infrared Downstream Tasks via Adapter Tuning

2024年04月26日
  • 简介
    语义分析可用于可见光(RGB)和红外(IR)图像,因其在低照明和复杂天气条件下更准确和更具鲁棒性而备受关注。由于缺乏针对大规模红外图像数据集的预训练基础模型,现有方法倾向于设计特定任务的框架,并直接使用预训练的基础模型对其RGB-IR语义相关数据集进行微调,这导致可扩展性差和泛化能力有限。本文提出了一种可扩展和高效的框架UniRGB-IR,用于统一RGB-IR下游任务,其中开发了一种新型适配器,可以有效地将更丰富的RGB-IR特征引入预训练的基于RGB的基础模型中。具体而言,我们的框架包括一个视觉变换器(ViT)基础模型、一个多模态特征池(MFP)模块和一个补充特征注入器(SFI)模块。MFP和SFI模块相互配合作为适配器,可以有效地将ViT特征与上下文多尺度特征相互补充。在训练过程中,我们冻结整个基础模型以继承先前的知识,并仅优化MFP和SFI模块。此外,为了验证我们框架的有效性,我们使用ViT-Base作为预训练基础模型进行了广泛的实验。在各种RGB-IR下游任务的实验结果表明,我们的方法可以实现最先进的性能。源代码和结果可在https://github.com/PoTsui99/UniRGB-IR.git获得。
  • 图表
  • 解决问题
    论文旨在提出一种可扩展且高效的框架UniRGB-IR,用于融合RGB和红外图像进行下游任务。该框架旨在解决现有方法在大规模红外图像数据集上缺乏预训练模型的问题,导致可扩展性差和泛化能力有限的问题。
  • 关键思路
    UniRGB-IR框架包含一个Vision Transformer(ViT)基础模型,一个多模态特征池(MFP)模块和一个补充特征注入器(SFI)模块。MFP和SFI模块相互协作作为适配器,有效地将ViT特征与上下文多尺度特征相结合。
  • 其它亮点
    论文使用ViT-Base作为预训练基础模型,通过在多个RGB-IR下游任务上的实验验证了UniRGB-IR框架的有效性和先进性。论文还提供了开源代码和实验结果。
  • 相关研究
    最近的相关研究包括使用深度学习方法进行红外目标检测和识别的研究,以及使用RGB和红外图像进行目标跟踪的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论