- 简介在AI研究中,学习和推理的整合是一个重要的议题。然而,目前对于利用现有的背景知识来推理部分观察到的场景并回答有关场景的问题的关注还很少。然而,我们作为人类经常利用这样的知识来推断出合理的答案(通过排除所有不一致的答案)。这种知识通常以对象的约束形式出现,往往高度特定于领域或环境。我们提出了一个名为CLEVR-POC的新型基准,用于在受约束的部分可观察环境中进行推理密集型视觉问答(VQA)。在CLEVR-POC中,需要利用逻辑约束形式的知识来生成关于给定部分场景中隐藏对象的问题的合理答案。例如,如果我们知道所有杯子都是红色、绿色或蓝色,而且只有一个绿色的杯子,那么在观察到所有其他杯子(包括绿色的杯子)的情况下,就可以推断遮挡杯子的颜色是红色或蓝色。通过实验,我们观察到预先训练的视觉语言模型(如CLIP)的低性能(约22%)以及大型语言模型(LLM)(如GPT-4)在CLEVR-POC上的表现(约46%)确认了需要处理推理密集型任务的框架,其中环境特定的背景知识是可用和至关重要的。此外,我们的演示说明,神经符号模型(将类似于GPT-4的LLM与视觉感知网络和形式逻辑推理器集成)在CLEVR-POC上表现出了出色的性能。
- 图表
- 解决问题论文旨在解决如何在部分可观察的环境下,利用先前的背景知识来回答视觉问题的问题。这是一个新问题。
- 关键思路论文提出了一个名为CLEVR-POC的基准测试,用于在约束条件下进行部分可观察的环境中的推理密集型视觉问答(VQA)。论文提出了一种神经符号模型,将LLM、视觉感知网络和形式逻辑推理器相结合,以处理这种推理密集型任务。
- 其它亮点论文使用CLEVR-POC基准测试来评估现有的预训练视觉语言模型的性能,结果显示它们的表现很差。论文提出的神经符号模型在CLEVR-POC基准测试中表现出色。论文还提出了一种基于逻辑约束的背景知识表示方法,并提供了一个开源的数据集和代码。
- 最近的相关研究包括:《Visual Question Answering: Datasets, Algorithms, and Future Challenges》、《CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning》等。
沙发等你来抢
去评论
评论
沙发等你来抢