Text-Video Retrieval with Global-Local Semantic Consistent Learning

2024年05月21日
  • 简介
    将大规模图像-文本预训练模型(例如CLIP)应用于视频领域,代表着文本-视频检索的最新技术。主要方法涉及将文本-视频对转移到共同的嵌入空间,并利用特定实体的跨模态交互进行语义对齐。虽然这些方法是有效的,但代价是计算成本过高,导致检索效率低下。为了解决这个问题,我们提出了一种简单而有效的方法,全局-局部语义一致性学习(GLSCL),利用跨模态的潜在共享语义进行文本-视频检索。具体而言,我们引入了一个无需参数的全局交互模块来探索粗粒度对齐。然后,我们设计了一个共享局部交互模块,利用多个可学习的查询来捕捉潜在的语义概念,用于学习细粒度的对齐。此外,我们设计了一种交互一致性损失(ICL),用于完成视觉查询和相应文本查询之间的概念对齐,并开发了一种内部多样性损失(IDL),用于排斥视觉(文本)查询内部的分布,以生成更具有区分度的概念。在五个广泛使用的基准测试(即MSR-VTT、MSVD、DiDeMo、LSMDC和ActivityNet)上进行了大量实验,证明了所提出方法的卓越有效性和效率。值得注意的是,我们的方法在计算成本方面几乎比SOTA快220倍,并取得了可比较的性能。代码可在https://github.com/zchoi/GLSCL上找到。
  • 图表
  • 解决问题
    论文旨在解决文本-视频检索中高计算成本的问题,提出一种简单而有效的方法来利用跨模态交互和共享语义概念来实现检索。
  • 关键思路
    GLSCL方法利用全局交互模块和共享局部交互模块来实现跨模态语义一致性学习。此外,通过提出Inter-Consistency Loss(ICL)和Intra-Diversity Loss(IDL)来增强模型的性能。
  • 其它亮点
    论文在五个广泛使用的基准测试数据集上进行了广泛的实验,证明了该方法的优越性能和效率。该方法的代码已经开源。
  • 相关研究
    与此相关的最新研究包括CLIP等大规模图像-文本预训练模型的应用以及其他基于交互模块的方法,如MIL-NCE和CMIN。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论