视频文本检索的挑战包括视觉网络结构的设计 和训练数据的性质 ,因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的,因此只能通过大量的计算才能达到竞争力的性能。

作者在本文中解决了这两个挑战,并提出了一种端到端可训练模型,该模型旨在利用大规模图像和视频字幕数据集。本文的模型是对最近的ViT和Timesformer结构的修改和扩展,并且包括在空间和时间上的注意力。

该模型是灵活的,可以独立或结合在图像和视频文本数据集上进行训练。模型将图像视为视频的frozen snapshots开始,然后在接受视频数据集训练时逐渐学会attend到时间上下文。

此外,作者还提供了一个新的视频文本预训练数据集WebVid-2M ,包括200万多个视频,这些视频带有从互联网上抓取的弱字幕。尽管对数据集的训练要小一个数量级,但实验表明,这种方法在标准的下游视频检索基准 (包括msr-vtt,MSVD,DiDeMo和LSMDC) 上产生了SOTA的结果。

论文链接:

https://arxiv.org/abs/2104.00650

代码:

https://github.com/m-bain/frozen-in-time

在本文中,作者尝试统一这两个赛道,提出了一种双编码器结构,该结构利用Transformer视觉编码器的灵活性来从带有字幕的图像、或带有字幕的视频片段或两者进行训练 (如上图所示)。作者通过将图像视为 “时间冻结(frozen in time)” 的视频特例来做到这一点。

内容中包含的图片若涉及版权问题,请及时与我们联系删除