ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos

向作者提问

NEW

简介

我们介绍了ReXTime基准测试，旨在严格测试AI模型在视频事件中执行时间推理的能力。具体而言，ReXTime专注于跨时间推理，即在问题和相应答案发生在不同的视频片段时进行类似人类的理解。这种推理需要跨视频片段的因果关系的先进理解，即使是前沿的多模式大型语言模型也面临着重大挑战。为了促进这种评估，我们开发了一个自动化流程，用于生成时间推理问题-答案对，从而显著减少了对劳动密集型手动注释的需求。我们的基准测试包括921个经过仔细审核的验证样本和2,143个测试样本，每个样本都经过手动筛选以确保准确性和相关性。评估结果表明，尽管前沿的大型语言模型优于学术模型，但它们仍然落后于人类表现，存在14.3%的显著准确性差距。此外，我们的流程创建了一个无需手动工作的训练数据集，包括9,695个机器生成的样本，经实证研究表明，这些样本可以通过微调来增强跨时间推理。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

ReXTime论文旨在解决视频事件中跨时间的因果关系推理问题。这是一个新问题。
关键思路

论文提出了一种自动化生成问题-答案对的流程，用于评估模型在视频事件中跨时间推理的能力。该流程生成了9695个机器生成的样本，可以用于fine-tuning。实验结果表明，目前的前沿大型语言模型在跨时间推理方面仍然落后于人类。
其它亮点

论文的亮点包括使用自动化流程生成问题-答案对，以及评估了模型在视频事件中跨时间推理方面的能力。论文使用了921个验证样本和2143个测试样本，每个样本都经过了精心筛选和手动审核。此外，论文还提供了用于fine-tuning的机器生成样本，并探讨了该方法的有效性。
相关研究

在这个领域中，最近的相关研究包括：Temporal Grounding Graphs for Language Understanding with Accrued Entity-level Attention（ACL 2021）、VideoBERT: A Joint Model for Video and Language Representation Learning（ICCV 2019）等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问