在本文中,作者提出了HERO,一个新的大规模视频+语言综合表示学习框架。HERO以层次结构编码多模态输入,其中视频帧的局部上下文 通过多模态融合被跨模态Transformer(Cross-modal Transformer) 捕获,而全局视频上下文 由时间Transformer(Temporal Transformer) 捕获。

除了标准的 Masked Language Modeling(MLM) 和Masked Frame Modeling(MFM) 外,作者还设计了两个新的预训练任务:

(i) 视频字幕匹配( Video-Subtitle Matching,VSM) ,其中模型预测全局和局部时间对齐;

(ii) 帧顺序建模(Frame Order Modeling,FOM) ,其中模型预测打乱视频帧的正确顺序。

HERO在HowTo100M和大规模电视数据集上进行联合训练,以了解多个域的视频信息。综合实验表明,HERO在基于文本的视频/视频时刻检索、视频问答(QA)、视频和语言推理和视频字幕任务上取得了SOTA水平。此外。作者还提出了两个新的具有挑战性的基准测试——How2QA 和How2R 的视频QA和检索。

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

论文地址:https://arxiv.org/abs/2005.00200

代码地址:https://github.com/linjieli222/HERO

HERO的模型架构如上图所示,它以视频片段的帧和字幕句子的文本token作为输入。它们被输入到一个视频嵌入器和一个文本嵌入器中来提取初始表示。HERO在一个层次化的过程中计算上下文化的视频嵌入。

内容中包含的图片若涉及版权问题,请及时与我们联系删除