VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

2024年06月11日
  • 简介
    本文介绍了VideoLLaMA 2,这是一组视频大语言模型(Video-LLMs),旨在增强视频和音频导向任务中的时空建模和音频理解。在其前身的基础上,VideoLLaMA 2采用了定制的时空卷积(STC)连接器,有效地捕捉视频数据的复杂时空动态。此外,我们通过联合训练将音频分支集成到模型中,从而通过无缝地融合音频线索,丰富了模型的多模态理解能力。在多项选择视频问答(MC-VQA)、开放式视频问答(OE-VQA)和视频字幕生成(VC)任务上的全面评估表明,VideoLLaMA 2在开源模型中始终取得竞争性结果,甚至在一些基准测试中接近某些专有模型。此外,VideoLLaMA 2在现有模型中在音频仅问答(AQA)和音频视频问答(OE-AVQA)基准测试中表现出合理的改进。这些进展突显了VideoLLaMA 2在多模态理解方面的优越性能,为智能视频分析系统设定了新的标准。所有模型均为公开的,以促进进一步的研究。
  • 图表
  • 解决问题
    本文旨在提出一种新的 Video Large Language Models (Video-LLMs) 来增强视频和音频相关任务中的时空建模和音频理解。
  • 关键思路
    本文提出了 VideoLLaMA 2,它包括一个特制的空间-时间卷积 (STC) 连接器和一个音频分支,通过联合训练来丰富模型的多模态理解能力。
  • 其它亮点
    本文在多项基准测试中评估了 VideoLLaMA 2 在多项视频问答和视频字幕任务中的性能,展示了其在多模态理解方面的卓越表现。该模型的开源代码可供进一步研究使用。此外,本文还展示了在现有模型的基础上,通过音频分支的加入,VideoLLaMA 2 在音频-视频问答方面取得了一定的改进。
  • 相关研究
    最近的相关研究包括:《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》、《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论