- 简介本文介绍了一种名为组合图像检索(CIR)的方法,旨在基于文本查询图像。当前的零样本CIR(ZS-CIR)方法试图在不使用昂贵的三元组标记训练数据集的情况下解决CIR任务。然而,ZS-CIR与三元组监督CIR之间的差距仍然很大。在本文中,我们提出了混合CIR(HyCIR)方法,利用合成标签来提高ZS-CIR的性能。我们提出了一种新的用于CIR的标签合成管道(SynCir),其中仅需要无标签图像。首先,基于视觉相似性提取图像对。其次,基于视觉-语言模型和LLM为每个图像对生成查询文本。第三,根据语义相似性在语言空间中进一步过滤数据。为了提高ZS-CIR的性能,我们提出了一种混合训练策略,可以与ZS-CIR监督和合成CIR三元组一起使用。采用了两种对比学习方法。一种是使用大规模无标签图像数据集学习具有良好泛化性的图像到文本映射。另一种是使用合成CIR三元组学习更好的CIR任务映射。我们的方法在常见的CIR基准测试中实现了零样本最佳性能:CIRR和CIRCO。
- 图表
- 解决问题本文旨在解决Composed Image Retrieval (CIR)领域中Zero-Shot CIR (ZS-CIR)方法的性能问题,提出了一种使用合成标签增强ZS-CIR性能的方法HyCIR,并提出了一种新的标签合成方法SynCir。
- 关键思路HyCIR方法采用合成标签的方式来提高ZS-CIR的性能,其中SynCir方法使用图像相似性和语义相似性生成标签,通过两种对比学习方法来提高CIR任务的性能。
- 其它亮点本文提出的HyCIR方法在CIRR和CIRCO数据集上实现了SOTA的零样本性能,SynCir方法只需要无标签图像即可生成标签,避免了昂贵的三元组标注,实验结果表明合成标签可以提高ZS-CIR的性能。
- 与本文相关的研究包括使用对比学习方法的图像检索、零样本图像检索和使用合成标签的图像检索等。
沙发等你来抢
去评论
评论
沙发等你来抢