ICCV2021- 牛津大学新的预训练视频文本数据集WebVid-2M，设计用于端到端检索的联合视频和图像编码器！代码已开源！

视频文本检索的挑战包括视觉网络结构的设计 和训练数据的性质 ，因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的，因此只能通过大量的计算才能达到竞争力的性能。

作者在本文中解决了这两个挑战，并提出了一种端到端可训练模型，该模型旨在利用大规模图像和视频字幕数据集。本文的模型是对最近的ViT和Timesformer结构的修改和扩展，并且包括在空间和时间上的注意力。

该模型是灵活的，可以独立或结合在图像和视频文本数据集上进行训练。模型将图像视为视频的frozen snapshots开始，然后在接受视频数据集训练时逐渐学会attend到时间上下文。

此外，作者还提供了一个新的视频文本预训练数据集WebVid-2M ，包括200万多个视频，这些视频带有从互联网上抓取的弱字幕。尽管对数据集的训练要小一个数量级，但实验表明，这种方法在标准的下游视频检索基准 (包括msr-vtt，MSVD，DiDeMo和LSMDC) 上产生了SOTA的结果。

论文链接：

代码：

在本文中，作者尝试统一这两个赛道，提出了一种双编码器结构，该结构利用Transformer视觉编码器的灵活性来从带有字幕的图像、或带有字幕的视频片段或两者进行训练 (如上图所示)。作者通过将图像视为 “时间冻结（frozen in time）” 的视频特例来做到这一点。

内容中包含的图片若涉及版权问题，请及时与我们联系删除