Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval

2024年03月24日
  • 简介
    本文研究了零样本组合图像检索(ZS-CIR)任务,即在不使用三元组数据集进行训练的情况下,根据参考图像和描述检索目标图像。先前的研究通过将参考图像特征投影到文本嵌入空间中生成伪词标记。然而,它们关注全局视觉表示,忽略了详细属性的表示,例如颜色、物体数量和布局。为了解决这个挑战,我们提出了一种知识增强的双流零样本组合图像检索框架(KEDs)。KEDs通过整合数据库隐式地模拟参考图像的属性。该数据库通过提供相关图像和标题丰富了伪词标记,强调了各个方面的共享属性信息。这样,KEDs从不同的角度识别参考图像。此外,KEDs采用了一个额外的流,将伪词标记与文本概念对齐,利用从图像-文本对中挖掘的伪三元组。在文本嵌入空间中,该流生成的伪词标记明确地与细粒度语义对齐。在广泛使用的基准测试数据集ImageNet-R、COCO object、Fashion-IQ和CIRR上进行的大量实验表明,KEDs优于先前的零样本组合图像检索方法。
  • 图表
  • 解决问题
    本文旨在解决零样本组合图像检索(ZS-CIR)任务,即在不使用三元组数据集进行训练的情况下,根据参考图像和描述检索目标图像。之前的方法通过将参考图像特征投影到文本嵌入空间来生成伪词标记,但它们忽略了详细属性的表示。本文提出了一种基于知识增强的双流零样本组合图像检索框架(KEDs),通过整合数据库,隐式地模拟参考图像的属性,丰富了伪词标记,并从多个方面强调共享属性信息,从而从不同的角度识别参考图像。此外,KEDs采用了一个额外的流,将伪词标记与文本概念对齐,利用从图像-文本对中挖掘的伪三元组。这个流生成的伪词标记在文本嵌入空间中与细粒度语义明确对齐。实验表明,KEDs在广泛使用的基准测试中优于以前的零样本组合图像检索方法。
  • 关键思路
    KEDs采用了基于知识增强的双流零样本组合图像检索框架,通过整合数据库,隐式地模拟参考图像的属性,丰富了伪词标记,并从多个方面强调共享属性信息,从而从不同的角度识别参考图像。此外,KEDs采用了一个额外的流,将伪词标记与文本概念对齐,利用从图像-文本对中挖掘的伪三元组。这个流生成的伪词标记在文本嵌入空间中与细粒度语义明确对齐。
  • 其它亮点
    本文提出的KEDs框架在零样本组合图像检索任务中表现出色,优于以前的方法。实验采用了ImageNet-R、COCO object、Fashion-IQ和CIRR等广泛使用的基准测试数据集。KEDs框架整合了数据库,丰富了伪词标记,从而从不同的角度识别参考图像。此外,KEDs采用了一个额外的流,将伪词标记与文本概念对齐,利用从图像-文本对中挖掘的伪三元组。本文的方法为零样本组合图像检索任务提供了一种新的解决方案。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)Zero-shot Composed Image Retrieval with Group Supervision;2)Dual-stream Interactive Networks for Referring Image Segmentation;3)Dual-stream Interactive Attention Networks for Referring Expression Comprehension;4)Dual Attention Network for Product Compatibility and Outfit Recommendation。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论