HyCIR: Boosting Zero-Shot Composed Image Retrieval with Synthetic Labels

2024年07月08日
  • 简介
    这篇文章讨论了如何通过文本查询来检索图像的问题,即组合图像检索(CIR)。当前的零样本CIR(ZS-CIR)方法试图在不使用昂贵的三元组标记训练数据集的情况下解决CIR任务,但是ZS-CIR与三元组监督CIR之间的差距仍然很大。为了提高ZS-CIR的性能,作者提出了一种混合CIR(HyCIR)方法,使用合成标签来增强ZS-CIR的性能。作者提出了一种新的CIR标签合成方法(SynCir),其中只需要未标记的图像。首先,基于视觉相似性提取图像对;其次,基于视觉-语言模型和LLM为每个图像对生成查询文本;第三,在语言空间中根据语义相似性进一步过滤数据。为了提高ZS-CIR的性能,作者提出了一种混合训练策略,同时使用ZS-CIR监督和合成CIR三元组。采用了两种对比学习方法,一种是使用大规模未标记的图像数据集学习具有良好泛化性的图像到文本映射,另一种是使用合成CIR三元组学习更好的CIR任务映射。该方法在常见的CIR基准测试(CIRR和CIRCO)上实现了SOTA的零样本性能。
  • 图表
  • 解决问题
    本文旨在提高零样本图像检索(ZS-CIR)的性能,解决ZS-CIR与使用三元组标签训练的CIR之间的差距问题。
  • 关键思路
    本文提出了一种混合训练策略,将合成标签与ZS-CIR监督相结合,同时采用两种对比学习方法来提高性能。
  • 其它亮点
    本文提出了一种新的标签合成方法SynCir,仅需要无标签图像,实现了SOTA的ZS-CIR性能,并在CIRR和CIRCO数据集上进行了实验验证。
  • 相关研究
    与本文相关的研究包括:1. Triplet loss在CIR任务中的应用;2. 零样本学习在图像检索中的应用;3. 对比学习在图像检索中的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论