SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

向作者提问

NEW

简介

空间认知对于现实世界中的多模态智能至关重要，使模型能够有效地与物理环境进行交互。尽管多模态大语言模型（MLLM）已取得显著进展，现有的基准测试往往过度简化了空间认知，将其归结为单一维度的指标，从而无法捕捉空间能力的层次结构及其相互依赖性。为弥补这一不足，我们提出了一种分层的空间认知框架，将空间智能分解为从基础观察到高级规划五个逐步复杂的层级。基于这一分类体系，我们构建了SpatialBench——一个大规模、细粒度的基准测试集，涵盖15项与这些认知层级相对应的任务。为了在异构任务之间实现统一评估，我们进一步引入了一种以高层能力为导向的评估指标，可可靠地衡量模型整体的空间推理能力。针对大量MLLM的广泛实验揭示了模型在不同认知层级上的显著性能分层：模型在感知层面表现出较强的具身理解能力，但在符号推理、因果推断和规划方面仍存在明显局限。额外的人类对比实验表明，人类倾向于进行有选择性、目标导向的抽象思维，而MLLM则往往过度关注表面细节，缺乏连贯的空间意图。本研究建立了首个系统性的框架，用于衡量MLLM中的分层空间认知，为未来具备空间智能的系统奠定了基础。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的多模态大语言模型（MLLMs）空间认知评估基准过于简化，通常将其归结为单一维度的指标，无法反映空间智能的层次性与内在依赖关系。论文旨在解决如何系统、细粒度地评估MLLM在真实物理环境中所需的空间认知能力这一尚未被充分探索的问题。
关键思路

提出一个五层递进的层次化空间认知框架，将空间智能从基础感知到高级规划分解为五个层级，并基于此构建SpatialBench——一个大规模、细粒度的基准，涵盖15个对应任务。同时引入一种面向高阶能力的统一评估指标，实现跨异构任务的综合评价。相比以往工作，该思路首次建立了系统性的空间认知评估体系，强调能力的分层与演进。
其它亮点

构建了包含15项任务的SpatialBench基准，覆盖广泛的空间认知场景；设计了统一的能力导向评估 metric，提升跨任务可比性；实验评估了大量主流MLLM，发现模型在感知层面表现良好，但在符号推理、因果推断和规划方面显著落后；通过人类对比实验揭示人类倾向于目标驱动的抽象思维，而MLLM易陷入细节过度关注；研究为未来空间智能系统提供了可扩展的评测基础，代码与数据集已开源，值得进一步探索具身智能与认知建模的结合。
相关研究

1. 'Embodied Question Answering' by Gordon et al., CVPR 2018 2. 'Visual Spatial Reasoning with Symbolic Representations' by Li et al., ICLR 2023 3. 'ObjectNav: Embodied Target Finding in Real Environments' by Dwibedi et al., ICRA 2022 4. 'MM-Vet: Evaluating Multimodal Large Language Models' by Zhang et al., 2023 5. 'Spatial Understanding in Vision-Language Models' by Chen et al., NeurIPS 2022

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问