视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！

在本文中，作者提出了HERO，一个新的大规模视频+语言综合表示学习框架。HERO以层次结构编码多模态输入，其中视频帧的局部上下文 通过多模态融合被跨模态Transformer（Cross-modal Transformer） 捕获，而全局视频上下文 由时间Transformer（Temporal Transformer） 捕获。

除了标准的 Masked Language Modeling(MLM) 和Masked Frame Modeling(MFM) 外，作者还设计了两个新的预训练任务：

(i) 视频字幕匹配( Video-Subtitle Matching，VSM) ，其中模型预测全局和局部时间对齐；

(ii) 帧顺序建模(Frame Order Modeling，FOM) ，其中模型预测打乱视频帧的正确顺序。

HERO在HowTo100M和大规模电视数据集上进行联合训练，以了解多个域的视频信息。综合实验表明，HERO在基于文本的视频/视频时刻检索、视频问答(QA)、视频和语言推理和视频字幕任务上取得了SOTA水平。此外。作者还提出了两个新的具有挑战性的基准测试——How2QA 和How2R 的视频QA和检索。

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

论文地址：https://arxiv.org/abs/2005.00200

代码地址：https://github.com/linjieli222/HERO

HERO的模型架构如上图所示，它以视频片段的帧和字幕句子的文本token作为输入。它们被输入到一个视频嵌入器和一个文本嵌入器中来提取初始表示。HERO在一个层次化的过程中计算上下文化的视频嵌入。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！

评论列表

评论