UCSB&微软提出VIOLET，用Masked Visual-token Modeling进行端到端的视频语言学习！性能SOTA

视频语言（VidL）建模的一个巨大挑战在于，从图像/视频理解模型提取的固定视频表示与下游VidL数据之间的脱节 。最近的研究试图通过端到端的训练来解决这个问题。为了使其在计算上可行，先前的工作倾向于“图像化 ”视频输入，即，将少量稀疏采样的帧送入2D CNN，然后进行简单的平均池化或合并以获得整体视频表示。虽然取得了不错的结果，但这种简单的方法可能会丢失执行下游VidL任务所必需的时间信息。

在这项工作中，作者提出了VIOLET ，一个完全端到端的视频语言Transformer，它采用视频Transformer来显式地建模视频输入的时间信息。此外，先前的视频输入预训练任务（如masked frame modeling）不是非常有效，因此，作者提出了一个新的预训练任务，Masked Visual-token Modeling（MVM） ，用于更好的视频建模。

具体而言，原始视频帧patch被“标记化”为离散的视觉token，模型的目标是基于masked patches恢复原始视觉token 。综合的分析证明了通过视频Transformer和MVM进行显式时间建模的有效性。VIOLET在5个视频问答任务和4个文本到视频检索任务上实现了SOTA的性能。

论文：https://arxiv.org/abs/2111.12681

内容中包含的图片若涉及版权问题，请及时与我们联系删除

UCSB&微软提出VIOLET，用Masked Visual-token Modeling进行端到端的视频语言学习！性能SOTA

评论列表

评论