MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

2024年06月06日
  • 简介
    评估长视频理解(LVU)性能是一个重要但具有挑战性的研究问题。尽管之前有过努力,但现有的视频理解基准测试受到严重限制,特别是视频长度不足、视频类型和评估任务缺乏多样性以及不适合评估LVU表现等问题。为了解决上述问题,我们提出了一个名为MLVU(多任务长视频理解基准测试)的新基准测试,用于全面深入地评估LVU。MLVU具有以下关键价值:1)视频长度的实质性和灵活扩展,使基准测试能够评估LVU在广泛时间范围内的表现。2)包括各种视频类型,例如电影、监控录像、自拍视频、卡通、游戏视频等,反映了模型在不同场景下的LVU表现。3)开发多样化的评估任务,使得长视频理解模型的关键能力能够全面检查。最新的20种MLLMs的实证研究显示,今天的技术仍有很大的改进空间,因为所有现有方法在大多数评估任务中都很困难,并且在处理更长的视频时表现出严重的性能下降。此外,它还暗示了诸如上下文长度、图像理解质量和LLM骨干的选择等因素在未来的进展中可能起到关键作用。我们预计,MLVU将通过提供对MLLMs的全面深入分析来推进长视频理解的研究。
  • 作者讲解·2
  • 图表
  • 解决问题
    论文提出了一个新的长视频理解的基准 MLVU,以解决现有基准在视频长度、类型和评估任务多样性方面存在的问题,以全面深入地评估LVU性能。
  • 关键思路
    MLVU基准的关键思路是:通过大幅度延长视频长度、包含多种类型视频和开发多样化的评估任务,全面深入地评估MLLMs的长视频理解能力,揭示现有技术存在的问题和改进方向。
  • 其它亮点
    论文使用20个最新的MLLMs进行实验,揭示了现有技术在长视频理解方面的不足之处,并提出了未来改进的关键因素。MLVU基准的开发将推动长视频理解领域的研究。
  • 相关研究
    最近的相关研究包括:Temporal Segment Networks、Non-local Neural Networks、SlowFast Networks等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问