InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding

2024年03月22日
  • 简介
    我们介绍了InternVideo2,这是一种新的视频基础模型(ViFM),在动作识别、视频文本任务和以视频为中心的对话方面实现了最先进的性能。我们的方法采用渐进式训练范式,将掩码视频令牌重构、跨模态对比学习和下一个令牌预测等不同的自监督或弱监督学习框架统一起来。不同的训练阶段将通过不同的预文本任务引导我们的模型捕捉不同层次的结构和语义信息。在数据层面上,我们通过语义分割视频和生成视频-音频-语音字幕来优先考虑时空一致性。这提高了视频和文本之间的对齐度。我们为InternVideo2扩展了数据和模型大小。通过广泛的实验,我们验证了我们的设计,并展示了在60多个视频和音频任务上的最先进性能。值得注意的是,我们的模型在各种与视频相关的字幕、对话和长时间视频理解基准测试中优于其他模型,突显了其推理和理解长时间上下文的能力。代码和模型可在https://github.com/OpenGVLab/InternVideo2/获得。
  • 图表
  • 解决问题
    论文旨在解决视频理解中的动作识别、视频文本任务和视频中心对话等问题。同时,通过采用渐进式训练范式,将不同的自监督或弱监督学习框架统一起来,以提高模型性能。
  • 关键思路
    论文的关键思路是采用渐进式训练范式,通过不同的预训练任务来捕捉不同层次的结构和语义信息,并通过语义分割视频和生成视频-音频-语音字幕来提高数据的一致性。
  • 其它亮点
    论文通过广泛的实验验证了其设计,并在60多个视频和音频任务上展示了最先进的性能。此外,作者还开源了代码和模型。
  • 相关研究
    最近的相关研究包括使用Transformer模型进行视频理解的研究,以及使用自监督训练方法进行视频理解的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论