CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval

简介

本文介绍了一种名为“组合图像检索（CIR）”的方法，它基于图像-文本对查询来搜索目标图像。虽然当前的方法将其视为查询-目标匹配问题，但我们认为CIR三元组包含了超出这种主要关系的其他关联。在本文中，我们将每个三元组视为一个图节点，识别出其中的两种新关系。首先，我们引入了文本桥接图像对齐的概念，其中查询文本充当查询图像和目标图像之间的桥梁。我们提出了一种基于铰链的交叉注意力机制，将这种关系纳入网络学习中。其次，我们探索了互补文本推理，将CIR视为一种跨模态检索，其中两个图像组合以推理互补文本。为了有效地整合这些观点，我们设计了一个双重注意力的组合器。通过将这些互补关联与显式的查询对-目标图像关系相结合，我们建立了CIR的全面约束集。我们的框架CaLa（用于增强组合图像检索的互补关联学习）利用了这些见解。我们使用多种主干网络在CIRR和FashionIQ基准测试上评估了CaLa，证明了它在组合图像检索方面的优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：本论文旨在解决Composed Image Retrieval（CIR）中的图像-文本匹配问题，并提出了两种新的关系来增强检索效果。
关键思路

关键思路：本论文提出了两种新的关系：文本-图像对齐和互补文本推理，将其与显式的查询-目标图像关系相结合，建立了全面的约束条件，设计了一个基于注意力机制的模型CaLa来增强CIR的效果。
其它亮点

其他亮点：本文在CIRR和FashionIQ基准测试中使用多个骨干网络对CaLa进行了评估，并证明了其在组合图像检索方面的优越性。本文还开源了代码。
相关研究

相关研究：最近的相关研究包括：1.《Dual Attention Network for Composed Image Retrieval》；2.《Composing Text and Image for Image Retrieval - An Empirical Odyssey》等。

CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval

提问交流

提问交流