ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos

2024年06月27日
  • 简介
    我们介绍了ReXTime基准测试,旨在严格测试AI模型在视频事件中执行时间推理的能力。具体而言,ReXTime专注于跨时间推理,即在问题和相应答案发生在不同的视频片段时进行类似人类的理解。这种推理需要跨视频片段的因果关系的先进理解,即使是前沿的多模式大型语言模型也面临着重大挑战。为了促进这种评估,我们开发了一个自动化流程,用于生成时间推理问题-答案对,从而显著减少了对劳动密集型手动注释的需求。我们的基准测试包括921个经过仔细审核的验证样本和2,143个测试样本,每个样本都经过手动筛选以确保准确性和相关性。评估结果表明,尽管前沿的大型语言模型优于学术模型,但它们仍然落后于人类表现,存在14.3%的显著准确性差距。此外,我们的流程创建了一个无需手动工作的训练数据集,包括9,695个机器生成的样本,经实证研究表明,这些样本可以通过微调来增强跨时间推理。
  • 作者讲解
  • 图表
  • 解决问题
    ReXTime论文旨在解决视频事件中跨时间的因果关系推理问题。这是一个新问题。
  • 关键思路
    论文提出了一种自动化生成问题-答案对的流程,用于评估模型在视频事件中跨时间推理的能力。该流程生成了9695个机器生成的样本,可以用于fine-tuning。实验结果表明,目前的前沿大型语言模型在跨时间推理方面仍然落后于人类。
  • 其它亮点
    论文的亮点包括使用自动化流程生成问题-答案对,以及评估了模型在视频事件中跨时间推理方面的能力。论文使用了921个验证样本和2143个测试样本,每个样本都经过了精心筛选和手动审核。此外,论文还提供了用于fine-tuning的机器生成样本,并探讨了该方法的有效性。
  • 相关研究
    在这个领域中,最近的相关研究包括:Temporal Grounding Graphs for Language Understanding with Accrued Entity-level Attention(ACL 2021)、VideoBERT: A Joint Model for Video and Language Representation Learning(ICCV 2019)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问