- 简介本文介绍了一种名为“组合图像检索(CIR)”的方法,它基于图像-文本对查询来搜索目标图像。虽然当前的方法将其视为查询-目标匹配问题,但我们认为CIR三元组包含了超出这种主要关系的其他关联。在本文中,我们将每个三元组视为一个图节点,识别出其中的两种新关系。首先,我们引入了文本桥接图像对齐的概念,其中查询文本充当查询图像和目标图像之间的桥梁。我们提出了一种基于铰链的交叉注意力机制,将这种关系纳入网络学习中。其次,我们探索了互补文本推理,将CIR视为一种跨模态检索,其中两个图像组合以推理互补文本。为了有效地整合这些观点,我们设计了一个双重注意力的组合器。通过将这些互补关联与显式的查询对-目标图像关系相结合,我们建立了CIR的全面约束集。我们的框架CaLa(用于增强组合图像检索的互补关联学习)利用了这些见解。我们使用多种主干网络在CIRR和FashionIQ基准测试上评估了CaLa,证明了它在组合图像检索方面的优越性。
- 图表
- 解决问题解决问题:本论文旨在解决Composed Image Retrieval(CIR)中的图像-文本匹配问题,并提出了两种新的关系来增强检索效果。
- 关键思路关键思路:本论文提出了两种新的关系:文本-图像对齐和互补文本推理,将其与显式的查询-目标图像关系相结合,建立了全面的约束条件,设计了一个基于注意力机制的模型CaLa来增强CIR的效果。
- 其它亮点其他亮点:本文在CIRR和FashionIQ基准测试中使用多个骨干网络对CaLa进行了评估,并证明了其在组合图像检索方面的优越性。本文还开源了代码。
- 相关研究:最近的相关研究包括:1.《Dual Attention Network for Composed Image Retrieval》;2.《Composing Text and Image for Image Retrieval - An Empirical Odyssey》等。
沙发等你来抢
去评论
评论
沙发等你来抢