- 简介随着视频多模态大语言模型(MLLM)的迅速发展,已经提出了许多基准来评估它们的视频理解能力。然而,由于视频中缺乏丰富的事件,这些数据集可能会受到捷径偏见的影响,即可以从几帧中推断出答案,而无需观看整个视频。为了解决这个问题,我们介绍了Event-Bench,这是一个基于现有数据集和人类注释的事件导向的长视频理解基准。Event-Bench包括六个与事件相关的任务和2,190个测试实例,以全面评估视频事件理解能力。此外,我们提出了视频指令合并(VIM),这是一种成本效益高的方法,使用合并的、事件密集型的视频指令增强视频MLLM,解决了人类注释的事件密集型数据的稀缺性问题。广泛的实验表明,表现最佳的模型GPT-4o的整体准确率达到53.33%,明显优于最佳的开源模型41.42%。利用有效的指令合成方法和自适应模型架构,VIM在Event-Bench上超越了最先进的开源模型和GPT-4V。所有的代码、数据和模型都可以在https://github.com/RUCAIBox/Event-Bench上公开获取。
-
- 图表
- 解决问题本论文旨在解决视频理解领域中数据缺乏丰富事件的问题,提出了一个基于事件的长视频理解基准测试集Event-Bench,并提出了一种名为VIM的方法来增强视频MLLMs的性能。
- 关键思路论文提出了基于事件的长视频理解基准测试集Event-Bench,并提出了一种名为VIM的方法来增强视频MLLMs的性能,使用合并的、事件密集型的视频指令来解决人工注释数据缺乏的问题。
- 其它亮点论文提出的Event-Bench包括六个与事件相关的任务和2190个测试实例,可以全面评估视频事件理解能力。使用VIM方法,最佳模型GPT-4o在Event-Bench上取得了53.33%的总体准确率,显著优于最佳开源模型41.42%。论文提供了公开的代码、数据和模型。
- 近期相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流