- 简介本文探讨组合图像检索(CIR)的问题,即基于多模态查询(参考图像和相应修改文本)检索目标图像。最近的CIR研究利用视觉语言预训练(VLP)方法作为特征提取骨干,并执行非线性特征级多模态查询融合以检索目标图像。尽管表现有所改善,但我们认为他们的非线性特征级多模态融合可能导致融合特征偏离原始嵌入空间,可能会损害检索性能。为解决这个问题,本文提出将多模态融合从特征级转移到原始数据级别,以充分利用VLP模型的多模态编码和跨模态对齐能力。具体而言,我们引入了基于双重查询统一的组合图像检索框架(DQU-CIR),其骨干仅包括VLP模型的图像编码器和文本编码器。具体而言,DQU-CIR首先使用两个无需训练的查询统一组件:面向文本的查询统一和面向视觉的查询统一,分别基于多模态查询的原始数据导出统一的文本和视觉查询。统一的文本查询通过将修改文本与提取的参考图像的文本描述连接而导出,而统一的视觉查询则通过将关键修改词写在参考图像上而创建。最终,为了解决不同的搜索意图,DQU-CIR线性组合由VLP模型编码的两个统一查询的特征以检索目标图像。对四个真实数据集的广泛实验验证了我们提出的方法的有效性。
- 图表
- 解决问题本文旨在解决Composed Image Retrieval(CIR)中,非线性特征级多模态查询融合可能导致融合特征偏离原始嵌入空间,从而可能损害检索性能的问题。
- 关键思路本文提出了一种基于双重查询统一的CIR框架(DQU-CIR),将多模态融合从特征级别转移到原始数据级别,以充分利用VLP模型的多模态编码和跨模态对齐能力。
- 其它亮点本文提出的DQU-CIR框架包括两个无需训练的查询统一组件:文本导向查询统一和视觉导向查询统一,以分别基于多模态查询的原始数据导出统一的文本和视觉查询。DQU-CIR线性组合VLP模型编码的两个统一查询的特征以检索目标图像。实验结果表明,DQU-CIR方法在四个真实世界数据集上具有显著的检索性能。
- 在这个领域中,最近的相关研究包括《Visual Semantic Reasoning for Image-Text Matching: A Survey》、《Learning to Compose and Reason with Language Tree Structures for Visual Grounding》等。
沙发等你来抢
去评论
评论
沙发等你来抢