Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval

简介

预训练的视觉语言（V&L）模型大大提高了跨模态图像-文本检索的性能。然而，总的来说，由于图像中的小物体与单词之间的粗略对齐，V&L模型对小物体的检索性能有限。相比之下，人类认知是以物体为中心的，即使它们很小，我们也会更关注重要的物体。为了弥补人类认知和V&L模型能力之间的差距，我们提出了一种基于“物体感知查询扰动”的跨模态图像-文本检索框架。所提出的方法生成检测到的物体的关键特征子空间，并使用该子空间扰动相应的查询，以提高图像中的物体感知。在我们提出的方法中，可以在不进行额外微调的情况下保持现有V&L模型的丰富表达能力和检索性能，实现物体感知的跨模态图像-文本检索。对四个公共数据集的全面实验表明，我们的方法优于传统算法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高小物体在跨模态图像-文本检索中的表现
关键思路

通过“对象感知查询扰动”的方法生成对象的关键特征子空间，并使用该子空间扰动相应的查询以提高图像中的对象感知性。
其它亮点

论文在四个公共数据集上进行了全面的实验，证明了该方法优于传统算法。该方法不需要额外的微调，可以保持现有V&L模型的丰富表现能力和检索性能。
相关研究

最近的相关研究包括“Learning to Learn from Web Data through Deep Semantic Embeddings”和“Hierarchical Graph Convolutional Networks for Jointly Extracting Visual and Textual Features”。

Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval

提问交流

提问交流