MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

简介

评估长视频理解（LVU）性能是一个重要但具有挑战性的研究问题。尽管之前有过努力，但现有的视频理解基准测试受到严重限制，特别是视频长度不足、视频类型和评估任务缺乏多样性以及不适合评估LVU表现等问题。为了解决上述问题，我们提出了一个名为MLVU（多任务长视频理解基准测试）的新基准测试，用于全面深入地评估LVU。MLVU具有以下关键价值：1）视频长度的实质性和灵活扩展，使基准测试能够评估LVU在广泛时间范围内的表现。2）包括各种视频类型，例如电影、监控录像、自拍视频、卡通、游戏视频等，反映了模型在不同场景下的LVU表现。3）开发多样化的评估任务，使得长视频理解模型的关键能力能够全面检查。最新的20种MLLMs的实证研究显示，今天的技术仍有很大的改进空间，因为所有现有方法在大多数评估任务中都很困难，并且在处理更长的视频时表现出严重的性能下降。此外，它还暗示了诸如上下文长度、图像理解质量和LLM骨干的选择等因素在未来的进展中可能起到关键作用。我们预计，MLVU将通过提供对MLLMs的全面深入分析来推进长视频理解的研究。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文提出了一个新的长视频理解的基准 MLVU，以解决现有基准在视频长度、类型和评估任务多样性方面存在的问题，以全面深入地评估LVU性能。
关键思路

MLVU基准的关键思路是：通过大幅度延长视频长度、包含多种类型视频和开发多样化的评估任务，全面深入地评估MLLMs的长视频理解能力，揭示现有技术存在的问题和改进方向。
其它亮点

论文使用20个最新的MLLMs进行实验，揭示了现有技术在长视频理解方面的不足之处，并提出了未来改进的关键因素。MLVU基准的开发将推动长视频理解领域的研究。
相关研究

最近的相关研究包括：Temporal Segment Networks、Non-local Neural Networks、SlowFast Networks等。

MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

提问交流

提问交流