- 简介基于语言模型的进展,大型多模态模型(LMM)在视频理解方面做出了重要贡献。虽然当前的视频LMM利用了先进的大型语言模型(LLM),但它们依赖于图像或视频编码器来处理视觉输入,每个编码器都有其自身的局限性。图像编码器擅长从帧序列中捕捉丰富的空间细节,但缺乏明确的时间上下文,这在具有复杂动作序列的视频中可能很重要。另一方面,视频编码器提供时间上下文,但往往受到计算限制的限制,导致只处理低分辨率的稀疏帧,从而降低了上下文和空间理解能力。为此,我们介绍了VideoGPT+,它结合了图像编码器(用于详细的空间理解)和视频编码器(用于全局时间上下文建模)的互补优势。该模型通过将视频分成较小的片段并在图像和视频编码器提取的特征上应用自适应池化策略来处理视频。我们的架构展示了在多个视频基准测试中的性能提高,包括VCGBench,MVBench和零-shot问答。此外,我们使用一种新颖的半自动注释管道开发了112K个视频指令集,进一步提高了模型性能。此外,为了全面评估视频LMM,我们提出了VCGBench-Diverse,涵盖18个广泛的视频类别,如生活方式,体育,科学,游戏和监控视频。这个基准测试包括4,354个问题-答案对,评估现有LMM在密集视频字幕,空间和时间理解以及复杂推理方面的泛化能力,确保在不同的视频类型和动态下进行全面评估。 代码:https://github.com/mbzuai-oryx/VideoGPT-plus。
- 图表
- 解决问题论文旨在解决视频理解中图像编码器和视频编码器各自的局限性,提出了一种结合两者优点的视频LMM模型,以提高视频理解性能。
- 关键思路论文提出的VideoGPT+模型将图像编码器和视频编码器结合起来,通过自适应池化策略处理视频,从而兼顾了详细的空间理解和全局的时间上下文建模。
- 其它亮点论文使用VCGBench、MVBench和Zero-shot question-answering等多个视频基准测试数据集评估了VideoGPT+模型的性能,同时开发了一个视频指令数据集并通过半自动标注流程提高了模型性能。此外,论文还提出了VCGBench-Diverse基准测试数据集,涵盖了18个广泛的视频类别,评估了现有LMM模型在视频字幕生成、空间和时间理解以及复杂推理等方面的泛化能力。
- 近期在视频理解领域的相关研究还包括:《ViViL》、《VidL-VAE》、《ViCoT》等。
沙发等你来抢
去评论
评论
沙发等你来抢