- 简介现实世界中的推理与情境密不可分。如何从周围环境中获取当前知识,并进行相应的推理,对于机器智能来说是至关重要且具有挑战性的。本文介绍了一种新的基准,通过情境抽象和逻辑基础问题回答,评估真实世界视频中的情境推理能力,称为真实世界视频中的情境推理基准(STAR基准)。该基准建立在与人类行为或互动相关的真实世界视频之上,这些视频自然而然地具有动态性、组合性和逻辑性。数据集包括四种类型的问题,包括互动、序列、预测和可行性。我们通过连接提取的原子实体和关系(例如,动作、人物、物体和关系)的超图来表示真实世界视频中的情境。除了视觉感知外,情境推理还需要结构化情境理解和逻辑推理。问题和答案是程序生成的。每个问题的回答逻辑都由基于情境超图的功能程序表示。我们比较了各种现有的视频推理模型,并发现它们都在这个具有挑战性的情境推理任务上遇到了困难。我们进一步提出了一种诊断性神经符号模型,可以将视觉感知、情境抽象、语言理解和功能推理分离开来,以理解这个基准的挑战。
- 图表
- 解决问题论文旨在解决机器智能在现实世界中进行情境推理的挑战。作者提出了一个基于实际视频的新基准测试STAR Benchmark,用于通过情境抽象和逻辑驱动的问题回答来评估情境推理能力。
- 关键思路论文提出了一种基于超图的方法来表示现实世界视频中的情境,并使用函数式编程来回答问题。同时,作者还提出了一种诊断性的神经符号模型,以解决这个具有挑战性的问题。
- 其它亮点论文的实验结果表明,现有的视频推理模型在处理这个具有挑战性的情境推理任务时都存在困难。作者提出的STAR基准测试数据集包含四种问题类型,并且已经开源。
- 近期的相关研究包括:《Visual Question Answering: A Survey of Methods and Datasets》、《CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning》、《Video Question Answering via Attribute-Augmented Attention Network Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢