CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval

2024年05月29日
  • 简介
    本文介绍了一种名为“组合图像检索(CIR)”的方法,它基于图像-文本对查询来搜索目标图像。虽然当前的方法将其视为查询-目标匹配问题,但我们认为CIR三元组包含了超出这种主要关系的其他关联。在本文中,我们将每个三元组视为一个图节点,识别出其中的两种新关系。首先,我们引入了文本桥接图像对齐的概念,其中查询文本充当查询图像和目标图像之间的桥梁。我们提出了一种基于铰链的交叉注意力机制,将这种关系纳入网络学习中。其次,我们探索了互补文本推理,将CIR视为一种跨模态检索,其中两个图像组合以推理互补文本。为了有效地整合这些观点,我们设计了一个双重注意力的组合器。通过将这些互补关联与显式的查询对-目标图像关系相结合,我们建立了CIR的全面约束集。我们的框架CaLa(用于增强组合图像检索的互补关联学习)利用了这些见解。我们使用多种主干网络在CIRR和FashionIQ基准测试上评估了CaLa,证明了它在组合图像检索方面的优越性。
  • 图表
  • 解决问题
    解决问题:本论文旨在解决Composed Image Retrieval(CIR)中的图像-文本匹配问题,并提出了两种新的关系来增强检索效果。
  • 关键思路
    关键思路:本论文提出了两种新的关系:文本-图像对齐和互补文本推理,将其与显式的查询-目标图像关系相结合,建立了全面的约束条件,设计了一个基于注意力机制的模型CaLa来增强CIR的效果。
  • 其它亮点
    其他亮点:本文在CIRR和FashionIQ基准测试中使用多个骨干网络对CaLa进行了评估,并证明了其在组合图像检索方面的优越性。本文还开源了代码。
  • 相关研究
    相关研究:最近的相关研究包括:1.《Dual Attention Network for Composed Image Retrieval》;2.《Composing Text and Image for Image Retrieval - An Empirical Odyssey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论