InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

论文摘要:本文介绍了InternVid,这是一个大规模的以视频为中心的多模态数据集,可以用于学习强大且可转移的视频文本表示,以实现多模态理解和生成。InternVid数据集包含超过7百万个视频,持续时间近760K小时,产生了234M视频剪辑,并附有总计4.1B个单词的详细描述。我们的核心贡献是开发了一种可扩展的方法,通过大型语言模型(LLM)自主构建高质量的视频文本数据集,从而展示其在大规模学习视频语言表示方面的有效性。具体而言,我们利用多尺度方法生成与视频相关的描述。此外,我们引入了ViCLIP,这是一种基于ViT-L的视频文本表示学习模型。通过对InternVid进行对比学习,该模型展示了领先的零样本动作识别和竞争性视频检索性能。除了基本的视频理解任务,如识别和检索,我们的数据集和模型具有广泛的应用。它们特别有助于生成交错的视频文本数据,以学习视频中心的对话系统,推进视频到文本和文本到视频的生成研究。这些提出的资源为对多模态视频理解和生成感兴趣的研究人员和从业者提供了一个工具。

内容中包含的图片若涉及版权问题,请及时与我们联系删除