All in One Framework for Multimodal Re-identification in the Wild

2024年05月08日
  • 简介
    最近在重新识别(ReID)领域,单模态和跨模态检索任务都取得了显著进展。然而,如何有效地处理包括RGB、红外线、草图和文本信息等多种多样的多模态数据仍然是一个挑战。此外,大规模模型的出现在各种视觉任务中表现出了很好的性能,但是在重新识别领域中,基础模型仍然是空白的。针对这些挑战,引入了一种新的多模态学习范式,称为All-in-One(AIO),它利用一个冻结的预训练大模型作为编码器,实现了有效的多模态检索,无需额外的微调。AIO中的各种多模态数据被无缝地标记为统一的空间,使得模态共享的冻结编码器能够全面地提取所有模态下的一致性特征。此外,还设计了一个精心制作的跨模态头部集合来指导学习轨迹。AIO是第一个执行全一体化ReID的框架,包括四种常用的模态。跨模态和多模态ReID的实验表明,AIO不仅能够熟练地处理各种模态数据,而且在具有挑战性的情况下表现出色,在零样本和域泛化场景中展现出了出色的性能。
  • 图表
  • 解决问题
    本文旨在解决ReID中的多模态数据处理问题以及缺乏统一框架的问题。同时也试图验证使用预训练模型作为编码器进行多模态检索的有效性。
  • 关键思路
    文章提出了一种名为All-in-One(AIO)的多模态学习范式,利用预训练大模型作为编码器,实现了有效的多模态检索,无需额外的微调。AIO将多样化的多模态数据无缝地标记化到统一空间中,使得模态共享的冻结编码器能够全面提取所有模态的一致特征。
  • 其它亮点
    AIO是第一个实现四种常用模态的全能ReID的框架。实验结果表明,AIO不仅能够处理各种模态数据,而且在零样本和领域泛化场景中表现出色。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:Multi-modal Person Re-identification with Multi-level Similarity Perception, Dual-Path Multi-scale Attention Network for Person Re-Identification, Learning to Learn from Noisy Labeled Data for Person Re-Identification,等等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论