LVBench: An Extreme Long Video Understanding Benchmark

2024年06月12日
  • 简介
    最近多模态大型语言模型的进展显著提高了对短视频(通常少于一分钟)的理解,并相应地出现了几个评估数据集。然而,这些进展还不能满足现实世界应用的需求,例如具有长期决策能力的体现智能、深入的电影评论和讨论以及现场体育评论,这些都需要理解数小时的长视频。为了填补这一空白,我们介绍了LVBench,这是一个专门设计用于长视频理解的基准测试。我们的数据集包括公开获取的视频,涵盖了一系列旨在实现长视频理解和信息提取的任务。LVBench旨在挑战多模态模型展示长期记忆和扩展的理解能力。我们广泛的评估表明,目前的多模态模型在这些要求苛刻的长视频理解任务上仍然表现不佳。通过LVBench,我们旨在促进更先进的模型的发展,以应对长视频理解的复杂性。我们的数据和代码可在以下网址公开获取:https://lvbench.github.io。
  • 图表
  • 解决问题
    本论文旨在解决当前多模态大语言模型在理解长视频方面的不足,为此提出了LVBench数据集,用于评估模型在长视频理解和信息提取方面的能力。
  • 关键思路
    LVBench数据集是本文的核心贡献,它由公开来源的长视频组成,涵盖了长视频理解和信息提取的多个任务,旨在挑战多模态模型展示长期记忆和扩展理解能力。作者通过广泛的评估发现,当前的多模态模型在处理长视频理解任务时仍然表现不佳。
  • 其它亮点
    本论文的亮点包括提出了针对长视频理解的新的评估数据集LVBench,涵盖了多个任务;作者通过广泛的评估发现当前的多模态模型在处理长视频理解任务时仍然表现不佳;作者的数据和代码公开可用。
  • 相关研究
    近期的相关研究包括:1)《ViSiL: Visual-Semantic Linking for Long-Form Video Understanding》;2)《TVQA: Localized, Compositional Video Question Answering》;3)《Temporal Cycle-Consistency Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论