文中提出 NeurIPS 2021 论文『VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation』微软提出新的视频多模态 benchmark:《VALUE》,同时包含检索、caption、QA等多个任务!快来刷榜吧!
大多数现有的视频和语言(VidL)研究集中于单个数据集,或单个任务的多个数据集。实际上,一个真正有用的VidL系统应该可以很容易地推广到不同的任务、领域和数据集。为了便于对此类系统进行评估,作者引入了视频和语言理解评估(VALUE )基准,这是一个由11个VidL数据集组成的集合,涉及3个任务:
(一)文本到视频检索(text-to-video retrieval);(二)视频问答(video question answering);和(三)视频字幕(video captioning)。VALUE基准涵盖了广泛的视频类型、视频长度、数据量和任务难度。VALUE并不是只关注具有视觉信息的单通道视频,而是拓展了利用视频帧及其相关字幕信息的模型,以及跨多个任务共享知识的模型。
作者评估了各种baseline方法,并系统地研究了视频输入通道、融合方法和不同视频表示的影响。作者还研究了任务之间的可迁移性,并在不同的环境下进行多任务学习。本文的最佳模型与人类结果之间的巨大差距,因此需要对SOTA VidL模型进行进一步研究。

内容中包含的图片若涉及版权问题,请及时与我们联系删除