NIPS 2021 | VALUE：视频多模态新基准

文中提出 NeurIPS 2021 论文『VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation』微软提出新的视频多模态 benchmark：《VALUE》，同时包含检索、caption、QA等多个任务！快来刷榜吧！

论文链接：https://arxiv.org/abs/2106.04632
项目链接：https://github.com/VALUE-Leaderboard/StarterCode

大多数现有的视频和语言（VidL）研究集中于单个数据集，或单个任务的多个数据集。实际上，一个真正有用的VidL系统应该可以很容易地推广到不同的任务、领域和数据集。为了便于对此类系统进行评估，作者引入了视频和语言理解评估（VALUE ）基准，这是一个由11个VidL数据集组成的集合，涉及3个任务：

（一）文本到视频检索（text-to-video retrieval）；（二）视频问答（video question answering）；和（三）视频字幕（video captioning）。VALUE基准涵盖了广泛的视频类型、视频长度、数据量和任务难度。VALUE并不是只关注具有视觉信息的单通道视频，而是拓展了利用视频帧及其相关字幕信息的模型，以及跨多个任务共享知识的模型。

作者评估了各种baseline方法，并系统地研究了视频输入通道、融合方法和不同视频表示的影响。作者还研究了任务之间的可迁移性，并在不同的环境下进行多任务学习。本文的最佳模型与人类结果之间的巨大差距，因此需要对SOTA VidL模型进行进一步研究。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

NIPS 2021 | VALUE：视频多模态新基准

评论列表

评论