在本文中,作者提出了CLIP2Video网络,以端到端的方式将图像语言预训练模型转换为视频文本检索模型。视频和语言学习领域的主流方法试图从大规模视频文本数据集中提取时空视频特征以及视频和语言之间的多模态交互。
与之不同的是,作者利用预训练的图像语言模型,将其简化为二阶段的框架,包括图像文本的共同学习 和分别增强视频帧和文本之间的时间关系 ,使其能够在相对较小的数据集上进行训练。
具体地说,基于对比语言图像预训练(CLIP)模型捕获的空间语义,本文的模型包括一个时间差分块(Temporal Difference Block,TDB) 来捕获精细时间视频帧上的运动,以及一个时间对齐块(Temporal Alignment Block) 来重新对齐视频片段和短语的token并增强多模态相关性。作者进行了详细的消融研究,并在文本到视频和视频到文本检索基准上实现了SOTA的性能。
论文链接:
https://arxiv.org/abs/2106.11097
代码:
https://github.com/CryhanFang/CLIP2Video
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢