Towards Event-oriented Long Video Understanding

向作者提问

NEW

简介

随着视频多模态大语言模型（MLLM）的迅速发展，已经提出了许多基准来评估它们的视频理解能力。然而，由于视频中缺乏丰富的事件，这些数据集可能会受到捷径偏见的影响，即可以从几帧中推断出答案，而无需观看整个视频。为了解决这个问题，我们介绍了Event-Bench，这是一个基于现有数据集和人类注释的事件导向的长视频理解基准。Event-Bench包括六个与事件相关的任务和2,190个测试实例，以全面评估视频事件理解能力。此外，我们提出了视频指令合并（VIM），这是一种成本效益高的方法，使用合并的、事件密集型的视频指令增强视频MLLM，解决了人类注释的事件密集型数据的稀缺性问题。广泛的实验表明，表现最佳的模型GPT-4o的整体准确率达到53.33%，明显优于最佳的开源模型41.42%。利用有效的指令合成方法和自适应模型架构，VIM在Event-Bench上超越了最先进的开源模型和GPT-4V。所有的代码、数据和模型都可以在https://github.com/RUCAIBox/Event-Bench上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频理解领域中数据缺乏丰富事件的问题，提出了一个基于事件的长视频理解基准测试集Event-Bench，并提出了一种名为VIM的方法来增强视频MLLMs的性能。
关键思路

论文提出了基于事件的长视频理解基准测试集Event-Bench，并提出了一种名为VIM的方法来增强视频MLLMs的性能，使用合并的、事件密集型的视频指令来解决人工注释数据缺乏的问题。
其它亮点

论文提出的Event-Bench包括六个与事件相关的任务和2190个测试实例，可以全面评估视频事件理解能力。使用VIM方法，最佳模型GPT-4o在Event-Bench上取得了53.33%的总体准确率，显著优于最佳开源模型41.42%。论文提供了公开的代码、数据和模型。
相关研究

近期相关研究包括：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问