- 简介计数事实推理是人类智慧的一个重要表现,它指的是基于已有事实做出假设并推断可能的结果。现有的多模态大语言模型(MLLMs)展现出了令人印象深刻的认知和推理能力,并已在广泛的视觉问答(VQA)基准测试中得到了检验。然而,当面临反事实问题时,现有的MLLMs会表现如何呢?为了回答这个问题,我们首先精心策划了一个新的反事实多模态推理基准测试,简称CFMM,以系统地评估MLLMs的反事实推理能力。我们的CFMM包括六个具有挑战性的任务,每个任务包含数百个经过精心人工标注的反事实问题,以评估MLLM在不同方面的反事实推理能力。通过实验,有趣的是,我们发现现有的MLLMs更倾向于相信他们所看到的,而忽略了问题中呈现的反事实前提,从而导致了不准确的回答。此外,我们在我们提出的CFMM上评估了广泛流行的MLLMs。它们在我们的CFMM上的表现与在几个VQA基准测试上的表现之间的显著差距表明,在接近人类水平的智能方面,现有的MLLMs仍有相当大的改进空间。另一方面,通过未来在我们的CFMM上提高MLLMs的表现,可以探索开发具有先进智能的MLLMs的潜在途径。
- 图表
- 解决问题本论文旨在评估现有的多模态大型语言模型(MLLMs)在反事实推理方面的表现。作者提出了一个新的反事实多模态推理基准(CFMM)来评估MLLMs的反事实推理能力。
- 关键思路论文的关键思路是通过设计一个新的基准测试来评估现有的MLLMs在反事实推理方面的表现,并发现现有的MLLMs更倾向于相信它们看到的,而忽略问题中呈现的反事实前提,从而导致不准确的响应。
- 其它亮点本论文提出了一个新的反事实多模态推理基准(CFMM),包括六个挑战性的任务,每个任务包括数百个精心标记的反事实问题,以评估MLLMs在不同方面的反事实推理能力。作者发现现有的MLLMs在反事实推理方面的表现与其在其他VQA基准测试上的表现存在显著差距。本论文的实验结果表明,现有的MLLMs仍然有很大的提升空间。
- 最近的相关研究包括《GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering》、《CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning》等。
沙发等你来抢
去评论
评论
沙发等你来抢