- 简介这篇文章讨论了组合图像检索(CIR)任务,该任务需要使用图像和文本的组合查询,旨在搜索两种条件下的相关图像。传统的CIR方法需要一个由查询图像、查询文本和目标图像组成的训练数据集,这非常昂贵。一些近期的工作已经致力于零样本(ZS)CIR范式,以解决不使用预先收集的三元组的问题。然而,现有的ZS-CIR方法在训练期间由于输入文本缺乏多样性而显示出有限的骨干可扩展性和普适性。作者提出了一种新的CIR框架,只使用语言进行训练。他们的LinCIR(仅使用语言进行CIR的训练)可以仅通过文本数据集进行训练,通过一种名为自掩蔽投影(SMP)的新型自我监督来实现。他们将文本潜在嵌入投影到令牌嵌入空间,并通过替换原始文本的关键词令牌构建新文本。然后,他们让新文本和原始文本具有相同的潜在嵌入向量。通过这种简单的策略,LinCIR非常高效和有效;使用CLIP ViT-G骨干的LinCIR在48分钟内进行了训练,并在四个不同的CIR基准测试中展现了最佳的ZS-CIR表现,包括CIRCO、GeneCIS、FashionIQ和CIRR,甚至在FashionIQ上超过了有监督的方法。代码可在https://github.com/navervision/lincir获得。
- 图表
- 解决问题本论文的问题是如何解决组合图像检索(CIR)任务中数据集采集难度大的问题,以及提高零样本学习的鲁棒性和可扩展性。
- 关键思路本论文提出了一种新的CIR框架,名为LinCIR,它只使用语言进行训练。LinCIR通过自监督学习的方式,使用一种名为自掩蔽投影(SMP)的新方法,将文本隐含嵌入投影到令牌嵌入空间中,并构建一个新的文本,通过替换原始文本的关键词令牌来与原始文本具有相同的隐含嵌入向量。这种简单的策略使LinCIR非常高效且高效,使用CLIP ViT-G骨干网络训练只需48分钟,在四个不同的CIR基准测试中表现最佳。
- 其它亮点本论文的亮点包括使用语言进行训练的新型CIR框架LinCIR,以及通过自掩蔽投影(SMP)实现自监督学习的新方法。实验结果表明,LinCIR在四个不同的CIR基准测试中表现最佳,甚至在FashionIQ上超过了有监督方法。代码已在GitHub上开源。
- 最近的相关研究包括传统的CIR方法和零样本学习的CIR方法。本论文提出的LinCIR框架通过使用语言进行训练,与传统的CIR方法不同。同时,LinCIR也解决了现有零样本学习CIR方法的可扩展性和鲁棒性问题。
沙发等你来抢
去评论
评论
沙发等你来抢