Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval

2024年07月17日
  • 简介
    预训练的视觉语言(V&L)模型大大提高了跨模态图像-文本检索的性能。然而,总的来说,由于图像中的小物体与单词之间的粗略对齐,V&L模型对小物体的检索性能有限。相比之下,人类认知是以物体为中心的,即使它们很小,我们也会更关注重要的物体。为了弥补人类认知和V&L模型能力之间的差距,我们提出了一种基于“物体感知查询扰动”的跨模态图像-文本检索框架。所提出的方法生成检测到的物体的关键特征子空间,并使用该子空间扰动相应的查询,以提高图像中的物体感知。在我们提出的方法中,可以在不进行额外微调的情况下保持现有V&L模型的丰富表达能力和检索性能,实现物体感知的跨模态图像-文本检索。对四个公共数据集的全面实验表明,我们的方法优于传统算法。
  • 作者讲解
  • 图表
  • 解决问题
    提高小物体在跨模态图像-文本检索中的表现
  • 关键思路
    通过“对象感知查询扰动”的方法生成对象的关键特征子空间,并使用该子空间扰动相应的查询以提高图像中的对象感知性。
  • 其它亮点
    论文在四个公共数据集上进行了全面的实验,证明了该方法优于传统算法。该方法不需要额外的微调,可以保持现有V&L模型的丰富表现能力和检索性能。
  • 相关研究
    最近的相关研究包括“Learning to Learn from Web Data through Deep Semantic Embeddings”和“Hierarchical Graph Convolutional Networks for Jointly Extracting Visual and Textual Features”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问