VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

向作者提问

NEW

简介

视觉推理是人类认知的核心，使人们能够解释和抽象理解周围的环境。尽管最近的多模态大语言模型（MLLMs）在语言和视觉-语言任务中表现出令人印象深刻的性能，但现有的基准测试主要衡量基于识别的技能，未能充分评估真正的视觉推理能力。为填补这一关键空白，我们提出了 VERIFY，这是一个专门设计的基准测试，旨在分离并严格评估最先进的 MLLM 的视觉推理能力。VERIFY 迫使模型主要从视觉信息中进行推理，提供极少的文本上下文，以减少对领域特定知识和语言偏见的依赖。每个问题都附有人工标注的推理路径，使其成为首个深入评估模型决策过程的基准测试。此外，我们提出了新颖的指标，这些指标不仅评估准确性，还衡量视觉推理的保真度，揭示了当前模型推理模式中的关键不平衡问题。我们对领先的 MLLM 进行了全面的基准测试，发现了显著的局限性，这突显了在感知和推理方面需要采取平衡且全面的方法。如需更多示例和测试，请访问我们的项目页面 (https://verify-eqh.pages.dev/)。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

VERIFY试图解决当前视觉-语言模型评估中缺乏对深度视觉推理能力全面测试的问题。现有的基准更多关注识别技能，而未能充分衡量模型的真实视觉推理能力。这是一个新问题，因为它是首次尝试系统性地隔离并评估模型的视觉推理能力。
关键思路

VERIFY通过提供一个全新的基准测试集来解决这一问题，该基准强调从视觉信息中进行推理，并尽量减少文本提示的作用，从而降低对领域知识和语言偏见的依赖。此外，它还引入了人类标注的推理路径，使研究者能够深入了解模型的决策过程。相比现有方法，VERIFY更注重模型如何处理复杂的视觉信息以及其推理逻辑是否可靠。
其它亮点

1. VERIFY是首个提供人类标注推理路径的基准，有助于理解模型的决策机制；2. 提出了新的评估指标，超越传统的准确率评估，关注模型推理的保真度；3. 研究发现当前最先进的多模态模型在视觉推理方面存在显著局限性；4. 数据集和项目页面已公开（https://verify-eqh.pages.dev/），便于社区进一步探索与改进。
相关研究

相关研究包括：1. GQA（Google's Visual Question Answering Benchmark），专注于复杂视觉问答任务；2. VCR（Visual Commonsense Reasoning），强调常识推理在视觉任务中的应用；3. OK-VQA（Open-Ended Knowledge-based VQA），探索基于外部知识的视觉问答；4. CLIP和FLAVA等多模态模型的研究，展示了联合视觉和语言表示学习的能力。这些工作共同推动了视觉-语言模型的发展，但均未像VERIFY一样专门针对纯视觉推理能力进行深入评估。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问