视频语言(VidL)建模的一个巨大挑战在于,从图像/视频理解模型提取的固定视频表示与下游VidL数据之间的脱节 。最近的研究试图通过端到端的训练来解决这个问题。为了使其在计算上可行,先前的工作倾向于“图像化 ”视频输入,即,将少量稀疏采样的帧送入2D CNN,然后进行简单的平均池化或合并以获得整体视频表示。虽然取得了不错的结果,但这种简单的方法可能会丢失执行下游VidL任务所必需的时间信息。

在这项工作中,作者提出了VIOLET ,一个完全端到端的视频语言Transformer,它采用视频Transformer来显式地建模视频输入的时间信息。此外,先前的视频输入预训练任务(如masked frame modeling)不是非常有效,因此,作者提出了一个新的预训练任务,Masked Visual-token Modeling(MVM) ,用于更好的视频建模。
具体而言,原始视频帧patch被“标记化”为离散的视觉token,模型的目标是基于masked patches恢复原始视觉token 。综合的分析证明了通过视频Transformer和MVM进行显式时间建模的有效性。VIOLET在5个视频问答任务和4个文本到视频检索任务上实现了SOTA的性能。

论文:https://arxiv.org/abs/2111.12681

内容中包含的图片若涉及版权问题,请及时与我们联系删除