MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

2024年06月20日
  • 简介
    大型视觉语言模型(LVLMs)的出现促进了对它们在多模态背景下的应用的研究,特别是在视频理解方面。传统的视频问答基准尽管提供定量指标,但往往未包括视频内容的全部范围,也未能充分评估模型的时间理解能力。为了解决这些限制,我们介绍了MMBench-Video,这是一个定量基准,旨在严格评估LVLM在视频理解方面的熟练程度。MMBench-Video包括来自YouTube的长视频,并采用自由形式的问题,反映实际使用情况。该基准经过精心设计,以探索模型的时间推理能力,所有问题都按照精心构建的能力分类法进行人工注释。我们使用GPT-4进行自动评估,证明其优于早期基于LLM的评估的准确性和稳健性。利用MMBench-Video,我们进行了全面的评估,包括针对图像和视频的专有和开源LVLM。MMBench-Video是研究社区的宝贵资源,有助于改进LVLM的评估,并催化视频理解领域的进展。MMBench-Video的评估代码将集成到VLMEvalKit中:https://github.com/open-compass/VLMEvalKit。
  • 图表
  • 解决问题
    论文旨在解决LVLM在视频理解中的应用问题,尤其是在对视频进行时序理解方面的评估不足的问题。
  • 关键思路
    论文提出了一个新的基准测试MMBench-Video,该测试从YouTube中选取了长视频,并使用类似实际应用的自由形式问题,以评估LVLM的视频理解能力。测试通过人工注释的能力分类法,精细地设计问题以测试模型的时序推理能力。
  • 其它亮点
    MMBench-Video是一个有价值的资源,有助于促进LVLM的评估和视频理解领域的进展。论文使用GPT-4进行自动评估,证明了其在准确性和鲁棒性方面的优越性。实验使用了开源数据集,并将评估代码整合到了VLMEvalKit中。
  • 相关研究
    最近的相关研究包括视频问答基准测试和LVLM在图像和视频理解中的应用研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论