ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling

2024年06月25日
  • 简介
    生成式检索在文本到文本检索中已经证明了其有效性,它利用序列到序列模型根据自然语言查询直接生成候选标识符。生成式检索不需要显式计算查询和候选标识符之间的相似度,因此在大规模语料库上,它比双塔模型更快、更准确,为跨模态检索提供了新的见解。然而,对于多模态数据构建标识符仍然是一个未被开发的问题,自然语言查询和多模态候选标识符之间的模态差距由于缺乏额外的编码器而阻碍了检索性能。因此,我们提出了一种开创性的生成式跨模态检索框架(ACE),它是一种基于从粗到细的语义建模的全面框架,用于端到端的跨模态检索。我们提出了将K-Means和RQ-VAE组合起来构建粗略和精细标记,作为多模态数据的标识符。相应地,我们设计了从粗到细的特征融合策略,以有效地对齐自然语言查询和候选标识符。ACE是第一个全面展示生成式方法在文本到图像/音频/视频检索中的可行性的工作,挑战了嵌入式双塔架构的主导地位。广泛的实验表明,ACE在跨模态检索方面实现了最先进的性能,并且在平均召回率@1上优于强基线15.27%。
  • 图表
  • 解决问题
    本文旨在解决跨模态检索中的识别符构建问题,提出了一种基于生成模型的跨模态检索框架。当前跨模态检索中的模态差异问题对检索性能有很大影响,因此需要一种新的方法来构建识别符。
  • 关键思路
    本文提出了一种名为ACE的跨模态检索框架,采用粗到细的语义建模方法,将K-Means和RQ-VAE相结合构建粗细识别符,并设计了粗到细特征融合策略来对齐自然语言查询和候选识别符。相比当前基于嵌入的双塔架构,ACE采用生成模型的方法,能够更快速、更准确地检索大规模语料库中的跨模态数据。
  • 其它亮点
    本文是第一个在文本-图像/音频/视频检索中全面展示生成方法可行性的工作,实验表明ACE在跨模态检索中取得了最先进的性能,平均Recall@1比强基线提高了15.27%。
  • 相关研究
    在跨模态检索领域,近期的相关研究包括:1.《Dual-Path One-Shot Learning with Common Semantic Space》;2.《Dual Attention Network for Scene Segmentation》;3.《Cross-Modal Retrieval with Correspondence Autoencoder and Multi-Task Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论