论文标题:CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

论文链接:https://arxiv.org/abs/2106.11097

代码链接:https://github.com/CryhanFang/CLIP2Video

作者单位:腾讯PCG

表现SOTA!性能优于CLIP4Clip-seqTransf、MDMMT等网络,代码即将开源!

我们提出了 CLIP2Video 网络,以端到端的方式将图像-语言预训练模型迁移到视频-文本检索。视频和语言学习领域的领先方法试图从大规模视频-文本数据集中提取时空视频特征以及视频和语言之间的多模态交互。与它们不同的是,我们利用预训练的图像语言模型,将其简化为两阶段框架,通过图像文本的共同学习并分别增强视频帧和视频文本之间的时间关系,使其能够在相对较小的数据集上进行训练.具体来说,基于对比语言图像预训练 (CLIP) 模型捕获的空间语义,我们的模型涉及一个时间差异块来捕获精细时间视频帧的运动,以及一个时间对齐块来重新对齐视频clips的标记和短语并增强多模态相关性。我们进行了彻底的消融研究,并在主要的文本到视频和视频到文本检索基准上实现了最先进的性能,包括 MSR-VTT、MSVD 和 VATEX 检索准确性的新记录。

内容中包含的图片若涉及版权问题,请及时与我们联系删除