- 简介视觉推理是人类认知的核心,使人们能够解释和抽象理解周围的环境。尽管最近的多模态大语言模型(MLLMs)在语言和视觉-语言任务中表现出令人印象深刻的性能,但现有的基准测试主要衡量基于识别的技能,未能充分评估真正的视觉推理能力。为填补这一关键空白,我们提出了 VERIFY,这是一个专门设计的基准测试,旨在分离并严格评估最先进的 MLLM 的视觉推理能力。VERIFY 迫使模型主要从视觉信息中进行推理,提供极少的文本上下文,以减少对领域特定知识和语言偏见的依赖。每个问题都附有人工标注的推理路径,使其成为首个深入评估模型决策过程的基准测试。此外,我们提出了新颖的指标,这些指标不仅评估准确性,还衡量视觉推理的保真度,揭示了当前模型推理模式中的关键不平衡问题。我们对领先的 MLLM 进行了全面的基准测试,发现了显著的局限性,这突显了在感知和推理方面需要采取平衡且全面的方法。如需更多示例和测试,请访问我们的项目页面 (https://verify-eqh.pages.dev/)。
-
- 图表
- 解决问题VERIFY试图解决当前视觉-语言模型评估中缺乏对深度视觉推理能力全面测试的问题。现有的基准更多关注识别技能,而未能充分衡量模型的真实视觉推理能力。这是一个新问题,因为它是首次尝试系统性地隔离并评估模型的视觉推理能力。
- 关键思路VERIFY通过提供一个全新的基准测试集来解决这一问题,该基准强调从视觉信息中进行推理,并尽量减少文本提示的作用,从而降低对领域知识和语言偏见的依赖。此外,它还引入了人类标注的推理路径,使研究者能够深入了解模型的决策过程。相比现有方法,VERIFY更注重模型如何处理复杂的视觉信息以及其推理逻辑是否可靠。
- 其它亮点1. VERIFY是首个提供人类标注推理路径的基准,有助于理解模型的决策机制;2. 提出了新的评估指标,超越传统的准确率评估,关注模型推理的保真度;3. 研究发现当前最先进的多模态模型在视觉推理方面存在显著局限性;4. 数据集和项目页面已公开(https://verify-eqh.pages.dev/),便于社区进一步探索与改进。
- 相关研究包括:1. GQA(Google's Visual Question Answering Benchmark),专注于复杂视觉问答任务;2. VCR(Visual Commonsense Reasoning),强调常识推理在视觉任务中的应用;3. OK-VQA(Open-Ended Knowledge-based VQA),探索基于外部知识的视觉问答;4. CLIP和FLAVA等多模态模型的研究,展示了联合视觉和语言表示学习的能力。这些工作共同推动了视觉-语言模型的发展,但均未像VERIFY一样专门针对纯视觉推理能力进行深入评估。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流