SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

2025年11月26日
  • 简介
    空间认知对于现实世界中的多模态智能至关重要,使模型能够有效地与物理环境进行交互。尽管多模态大语言模型(MLLM)已取得显著进展,现有的基准测试往往过度简化了空间认知,将其归结为单一维度的指标,从而无法捕捉空间能力的层次结构及其相互依赖性。为弥补这一不足,我们提出了一种分层的空间认知框架,将空间智能分解为从基础观察到高级规划五个逐步复杂的层级。基于这一分类体系,我们构建了SpatialBench——一个大规模、细粒度的基准测试集,涵盖15项与这些认知层级相对应的任务。为了在异构任务之间实现统一评估,我们进一步引入了一种以高层能力为导向的评估指标,可可靠地衡量模型整体的空间推理能力。针对大量MLLM的广泛实验揭示了模型在不同认知层级上的显著性能分层:模型在感知层面表现出较强的具身理解能力,但在符号推理、因果推断和规划方面仍存在明显局限。额外的人类对比实验表明,人类倾向于进行有选择性、目标导向的抽象思维,而MLLM则往往过度关注表面细节,缺乏连贯的空间意图。本研究建立了首个系统性的框架,用于衡量MLLM中的分层空间认知,为未来具备空间智能的系统奠定了基础。
  • 作者讲解
  • 图表
  • 解决问题
    现有的多模态大语言模型(MLLMs)空间认知评估基准过于简化,通常将其归结为单一维度的指标,无法反映空间智能的层次性与内在依赖关系。论文旨在解决如何系统、细粒度地评估MLLM在真实物理环境中所需的空间认知能力这一尚未被充分探索的问题。
  • 关键思路
    提出一个五层递进的层次化空间认知框架,将空间智能从基础感知到高级规划分解为五个层级,并基于此构建SpatialBench——一个大规模、细粒度的基准,涵盖15个对应任务。同时引入一种面向高阶能力的统一评估指标,实现跨异构任务的综合评价。相比以往工作,该思路首次建立了系统性的空间认知评估体系,强调能力的分层与演进。
  • 其它亮点
    构建了包含15项任务的SpatialBench基准,覆盖广泛的空间认知场景;设计了统一的能力导向评估 metric,提升跨任务可比性;实验评估了大量主流MLLM,发现模型在感知层面表现良好,但在符号推理、因果推断和规划方面显著落后;通过人类对比实验揭示人类倾向于目标驱动的抽象思维,而MLLM易陷入细节过度关注;研究为未来空间智能系统提供了可扩展的评测基础,代码与数据集已开源,值得进一步探索具身智能与认知建模的结合。
  • 相关研究
    1. 'Embodied Question Answering' by Gordon et al., CVPR 2018 2. 'Visual Spatial Reasoning with Symbolic Representations' by Li et al., ICLR 2023 3. 'ObjectNav: Embodied Target Finding in Real Environments' by Dwibedi et al., ICRA 2022 4. 'MM-Vet: Evaluating Multimodal Large Language Models' by Zhang et al., 2023 5. 'Spatial Understanding in Vision-Language Models' by Chen et al., NeurIPS 2022
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问