- 简介从现实世界的视觉环境和场景中学习常识推理是迈向先进人工智能的关键一步。然而,现有的视频推理基准仍然不足,因为它们主要是为了事实或情境推理而设计的,很少涉及现实世界中更广泛的知识。我们的工作旨在深入探讨推理评估,特别是在动态、开放且结构化的上下文知识中。我们提出了一个新的基准(SOK-Bench),包括44K个问题和10K个视频情境,视频中有实例级别的注释。推理过程需要理解和应用情境知识和一般知识来解决问题。为了创建这样的数据集,我们提出了一种自动化和可扩展的生成方法,通过指示LLMs和MLLMs的组合来生成问题-答案对、知识图和理由。具体而言,我们首先从视频中提取可观察的情境实体、关系和过程,以获得情境知识,然后扩展到超出可见内容的开放世界知识。任务生成通过多次对话作为迭代来促进,然后通过我们设计的自我提示和演示进行纠正和完善。通过具有明确的情境事实和隐含的常识的语料库,我们生成相关的问题-答案对和推理过程,最后进行手动审核以确保质量。我们评估了最近主流的大型视觉-语言模型在基准测试上的表现,并得出了一些有见地的结论。有关更多信息,请参阅我们的基准测试www.bobbywu.com/SOKBench。
- 图表
- 解决问题论文旨在提出一个新的基准测试(SOK-Bench),以评估视觉背景和场景中的常识推理能力。该基准测试试图解决现有视频推理基准测试的不足之处,即主要针对事实或情境推理,很少涉及更广泛的真实世界知识。
- 关键思路论文提出了一种自动和可扩展的生成方法,通过指示LLMs和MLLMs的组合来生成问题-答案对,知识图谱和原理。方法首先从视频中提取可观察的情境实体,关系和过程用于情境知识,然后扩展到超出可见内容的开放世界知识。
- 其它亮点论文提出了一个新的基准测试,包括44K个问题和10K个情境,以及相关的问题-答案对和推理过程。论文还介绍了自动化和可扩展的生成方法,以及多个对话迭代和自我提示和演示的设计。论文评估了最近主流的大型视觉语言模型,并得出了一些有见地的结论。
- 最近的相关研究包括CLEVR,CoGenT-A,CoGenT-B,GQA等基准测试,以及最近的一些基于视觉场景的常识推理的研究,如VL-COMM,CATER,CLEVRER等。
沙发等你来抢
去评论
评论
沙发等你来抢