MARS: Paying more attention to visual attributes for text-based person search

2024年07月05日
  • 简介
    文本搜索人物(TBPS)是一个在研究界引起了极大兴趣的问题。这个任务的目的是基于文本描述来检索一个或多个特定个体的图像。这个任务的多模态性需要学习在共享的潜在空间中连接文本和图像数据的表示。现有的TBPS系统面临两个主要挑战。一个被定义为身份间噪声,由于文本描述的内在模糊和不精确性,它表明视觉属性的描述通常可以与不同的人相关联。另一个是身份内变化,包括姿势、照明等所有可能改变给定主题的相同文本属性的视觉外观的干扰因素。为了解决这些问题,本文提出了一种新的TBPS体系结构,名为MARS(Mae-Attribute-Relation-Sensitive),通过引入两个关键组件增强了当前最先进的模型:视觉重建损失和属性损失。前者采用一个Masked AutoEncoder,训练以在文本描述的帮助下重建随机遮蔽的图像补丁。通过这样做,模型被鼓励在潜在空间中学习更具表现力的表示和文本-视觉关系。而属性损失则平衡了不同类型属性的贡献,这些属性被定义为文本的形容词-名词块。这个损失确保在人物检索过程中考虑到每一个属性。在三个常用数据集CUHK-PEDES、ICFG-PEDES和RSTPReid上进行了大量实验,报告了性能的提高,平均精度(mAP)指标相对于当前最先进技术有显著的增益。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决文本描述下的人物搜索问题,其中存在的两个主要挑战是身份内部变化和身份间噪声。这是否是一个新问题?
  • 关键思路
    本文提出了一种名为MARS的新型TBPS架构,通过引入视觉重构损失和属性损失两个关键组件来增强当前最先进的模型。视觉重构损失使用掩码自编码器训练来重构随机掩码的图像补丁,并在潜在空间中学习更具表现力的表示和文本-视觉关系。而属性损失则平衡了不同类型属性的贡献,确保每个属性在人物检索过程中都被考虑。
  • 其它亮点
    本文在三个常用数据集上进行了广泛的实验,即CUHK-PEDES、ICFG-PEDES和RSTPReid,报告了性能改进,特别是在平均精度(mAP)指标方面与当前最先进的技术相比有显著的提高。此外,本文还提供了开源代码。
  • 相关研究
    在这个领域中,最近还有一些相关的研究,例如:'Deep Text–Image Embedding for Image Retrieval'、'Dual-Path CNN with Adaptive Attention for Person Re-Identification'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问