- 简介当前用于长视频理解的数据集往往无法提供真正的长视频理解挑战,因为这些数据集中的许多任务可以通过分析视频中的一个或几个随机帧成功解决。为了解决这个问题,我们提出了一个新颖的数据集和基准,名为CinePile,专门设计用于真正的长视频理解。本文详细介绍了我们创建问题-答案数据集的创新方法,利用人机交互的高级LLMs,并建立在人类生成的原始数据基础上。我们全面的数据集包括305,000个多项选择题(MCQs),涵盖各种视觉和多模态方面,包括时间理解、理解人物与物体的互动以及推理场景中的事件或行为。此外,我们在数据集的测试集上评估了最近的视频中心LLMs,包括开源和专有的模型。研究结果表明,即使是最先进的视频中心LLMs在这些任务中也显著落后于人类表现,突显了视频理解中的复杂性和挑战。该数据集可在https://hf.co/datasets/tomg-group-umd/cinepile上获取。
- 图表
- 解决问题本文旨在解决当前长视频理解数据集缺乏真正的长视频理解挑战的问题,提出了一个新的数据集和基准测试CinePile,用于真正的长视频理解。
- 关键思路本文采用人机协同的方法,构建了一个包含305,000个多项选择题的长视频理解数据集CinePile,涵盖了时间理解、人物-物体交互理解以及场景内事件或动作推理等多种视觉和多模态方面。并且在该数据集上评估了最近的开源和专有视频中心的LLMs,发现即使是最先进的视频中心LLMs在这些任务中也明显落后于人类表现,突显了视频理解中的复杂性和挑战。
- 其它亮点CinePile是一个包含305,000个多项选择题的长视频理解数据集,涵盖了多种视觉和多模态方面。本文采用人机协同的方法构建了CinePile数据集,并在该数据集上评估了最近的视频中心LLMs。实验结果表明,即使是最先进的视频中心LLMs在这些任务中也明显落后于人类表现,突显了视频理解中的复杂性和挑战。
- 最近在这个领域中,还有一些相关的研究,如TVQA+,TVC等。
沙发等你来抢
去评论
评论
沙发等你来抢