- 简介在追求人工通用智能的过程中,多模态大语言模型(MLLMs)已成为最近进展的焦点。然而,主要关注点仍然在于开发它们在静态图像理解方面的能力。MLLMs在处理连续视觉数据方面的潜力仍未得到充分的探索,突显出缺乏全面、高质量评估其性能的问题。在本文中,我们介绍了Video-MME,这是MLLMs在视频分析中的首个全光谱、多模态评估基准。我们的工作通过以下四个关键特点与现有基准区分开来:1)视频类型的多样性,跨越6个主要的视觉领域,包括30个子领域,以确保广泛的场景适用性;2)时间维度的持续性,包括短、中、长期视频,范围从11秒到1小时,以适应复杂的上下文动态;3)数据模态的广度,除了视频帧外,还包括字幕和音频等多模态输入,以揭示MLLMs的全面能力;4)注释的质量,利用专家注释员的严格手动标注,以促进精确可靠的模型评估。我们手动选择了900个视频,总计254小时,并通过反复观看所有视频内容进行注释,结果得到了2700个问题-答案对。通过Video-MME,我们广泛评估了各种最先进的MLLMs,包括GPT-4系列和Gemini 1.5 Pro,以及开源图像模型如InternVL-Chat-V1.5和视频模型如LLaVA-NeXT-Video。我们的实验表明,Gemini 1.5 Pro是表现最佳的商业模型,明显优于开源模型。我们的数据集以及这些发现强调了需要进一步改进处理更长序列和多模态数据的必要性。项目页面:https://video-mme.github.io。
- 图表
- 解决问题评估多模态大语言模型在视频分析中的性能,特别是在处理序列视觉数据方面的能力是否得到充分探索?
- 关键思路提出了Video-MME评估基准,包括六种主要的视觉域和多种数据模态,涵盖短、中、长时间的视频,利用专业注释人员进行严格的手动标注,评估各种最先进的MLLMs模型,揭示了这些模型在视频分析中的性能差异。
- 其它亮点使用了全新的评估基准Video-MME,涵盖多种数据类型和模态,手动标注的数据集具有高质量的注释,评估了各种最先进的MLLMs模型,发现商业模型Gemini 1.5 Pro表现最佳,但仍需要进一步改进模型处理长序列和多模态数据的能力。
- 最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline》、《Multi-modal Transformer for Video Retrieval》等。
沙发等你来抢
去评论
评论
沙发等你来抢