- 简介在追求人工通用智能的过程中,多模态大语言模型(MLLMs)已成为最近进展的焦点。然而,主要关注点仍然是发展它们在静态图像理解方面的能力。MLLMs在处理序列视觉数据方面的潜力仍未得到充分探索,突显出缺乏全面、高质量评估其性能的问题。本文介绍了Video-MME,这是首个全光谱、多模态评估MLLMs在视频分析中的基准。我们的工作通过四个关键特征与现有基准区分开来:1)视频类型的多样性,涵盖了6个主要的视觉领域和30个子领域,以确保广泛的场景泛化性;2)时间维度的持续时间,包括短、中、长期视频,范围从11秒到1小时,以便于强大的上下文动态;3)数据模态的广度,除了视频帧之外,还整合了多模态输入,包括字幕和音频,以揭示MLLMs的全面能力;4)注释的质量,利用专家注释员的严格手动标注,以促进精确可靠的模型评估。我们手动选择了900个视频,总共256个小时,并重复查看所有视频内容进行注释,共得到了2700个问题-答案对。通过Video-MME,我们广泛评估了各种最先进的MLLMs,包括GPT-4系列和Gemini 1.5 Pro,以及开源图像模型如InternVL-Chat-V1.5和视频模型如LLaVA-NeXT-Video。我们的实验表明,Gemini 1.5 Pro是表现最佳的商业模型,显著优于开源模型。我们的数据集以及这些发现强调了需要进一步改进处理更长序列和多模态数据的必要性。项目页面:https://video-mme.github.io。
- 图表
- 解决问题本论文旨在探索Multi-Modal Large Language Models (MLLMs)在处理序列视觉数据方面的潜力,并提出了第一个全光谱、多模态评估基准Video-MME,以评估不同MLLMs在视频分析中的表现。
- 关键思路论文提出了Video-MME评估基准,包括视频类型的多样性、时间维度上的不同长度、多模态数据输入以及严格的手动标注,以全面评估MLLMs在视频分析中的表现。
- 其它亮点论文使用了900个视频,总共256小时,并进行了2,700个问题-答案对的手动标注。实验结果表明,商业模型Gemini 1.5 Pro表现最佳,明显优于开源模型。该研究强调了在处理更长序列和多模态数据方面的进一步改进的必要性。
- 最近的相关研究包括:1)ViLBERT:一个用于视觉和语言任务的联合预训练模型;2)HERO:一个基于预训练的视频理解模型;3)S3D-G:一个用于视频分类和行为识别的3D卷积神经网络。
沙发等你来抢
去评论
评论
沙发等你来抢