- 简介预训练的视觉语言(V&L)模型大大提高了跨模态图像-文本检索的性能。然而,总的来说,由于图像中的小物体与单词之间的粗略对齐,V&L模型对小物体的检索性能有限。相比之下,人类认知是以物体为中心的,即使它们很小,我们也会更关注重要的物体。为了弥补人类认知和V&L模型能力之间的差距,我们提出了一种基于“物体感知查询扰动”的跨模态图像-文本检索框架。所提出的方法生成检测到的物体的关键特征子空间,并使用该子空间扰动相应的查询,以提高图像中的物体感知。在我们提出的方法中,可以在不进行额外微调的情况下保持现有V&L模型的丰富表达能力和检索性能,实现物体感知的跨模态图像-文本检索。对四个公共数据集的全面实验表明,我们的方法优于传统算法。
-
- 图表
- 解决问题提高小物体在跨模态图像-文本检索中的表现
- 关键思路通过“对象感知查询扰动”的方法生成对象的关键特征子空间,并使用该子空间扰动相应的查询以提高图像中的对象感知性。
- 其它亮点论文在四个公共数据集上进行了全面的实验,证明了该方法优于传统算法。该方法不需要额外的微调,可以保持现有V&L模型的丰富表现能力和检索性能。
- 最近的相关研究包括“Learning to Learn from Web Data through Deep Semantic Embeddings”和“Hierarchical Graph Convolutional Networks for Jointly Extracting Visual and Textual Features”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流