- 简介大型多模型(LMMs)正在处理越来越长和更丰富的输入。尽管有所进展,但很少有公共基准可用于衡量这种发展。为了弥补这一差距,我们介绍了LongVideoBench,这是一个问答基准,具有长达一小时的视频语言交替输入。我们的基准包括3,763个不同长度的网络收集视频及其字幕,涵盖各种主题,旨在全面评估LMM对长期多模态理解的能力。为了实现这一目标,我们将主要挑战解释为准确检索和推理长输入中的详细多模态信息。因此,我们制定了一项新的视频问答任务,称为指代推理。具体而言,作为问题的一部分,它包含一个指代查询,引用相关视频上下文,称为指代上下文。然后,模型需要从指代上下文中推理出相关的视频细节。遵循指代推理的范例,我们策划了6,678个人工注释的17个细粒度类别的多项选择问题,建立了最全面的长格式视频理解基准之一。评估表明,即使对于最先进的专有模型(例如GPT-4o、Gemini-1.5-Pro、GPT-4-Turbo),LongVideoBench也提出了重大挑战,而它们的开源对应物则显示出更大的性能差距。此外,我们的结果表明,模型在基准上的表现仅在能够处理更多帧时才会提高,这使LongVideoBench成为评估未来一代长上下文LMM的有价值的基准。
- 图表
- 解决问题本论文旨在解决长视频理解的问题,提出了一个视频问答基准LongVideoBench,并提出了一种新的视频问答任务——参考推理。
- 关键思路本文提出了一个针对长视频理解的视频问答基准LongVideoBench,并提出了一种新的视频问答任务——参考推理。该任务要求模型从相关视频上下文中推理出相关细节。相比现有研究,本文的新思路在于针对长视频提出了一个全新的视频问答任务,从而更全面地评估了大型多模态模型的性能。
- 其它亮点本文提出的LongVideoBench基准包含3,763个长达一小时的多模态视频和字幕,涵盖了多种主题。该基准包括6,678个人工标注的多项选择问题,涵盖了17个细粒度类别。实验结果表明,即使是最先进的专有模型(如GPT-4o、Gemini-1.5-Pro、GPT-4-Turbo),在LongVideoBench上也面临着巨大的挑战,而它们的开源对应物则表现出更大的性能差距。此外,本文的结果表明,模型在处理更多帧时性能会有所提高。
- 在这个领域中,最近的相关研究包括:1.《VideoBERT: A Joint Model for Video and Language Representation Learning》;2.《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》;3.《TVQA: Localized, Compositional Video Question Answering》。
沙发等你来抢
去评论
评论
沙发等你来抢