视觉语言模型(VLMs)能否像人类一样,仅凭几个视角就想象出整个场景?人类通过构建空间心智模型——即对不可见空间的内部表征——来推理布局、视角和运动。我们新提出的 MindCube 基准测试包含 21,154 个问题,覆盖 3,268 张图像,揭示了这一关键能力上的显著差距:现有的 VLMs 表现接近随机猜测。借助 MindCube,我们系统地评估了 VLMs 在表达位置(认知映射)、方向(视角转换)和动态(对“如果……会怎样”移动的心理模拟)方面构建稳健空间心智模型的能力。
接着,我们探索了三种帮助 VLMs 接近空间心智模型的方法:引入未见过的中间视角、自然语言推理链以及认知地图。其中,一种结合性的方法“先建图后推理”带来了显著提升,该方法联合训练模型首先生成认知地图,然后基于地图进行推理。通过训练模型在这些内部地图上进行推理,我们将准确率从 37.8% 提高到了 60.8%(提升了 +23.0%)。进一步加入强化学习后,性能甚至提升至 70.7%(提升了 +32.9%)。
我们的核心发现是:这种空间心智模型的搭建过程——主动构建并利用具有灵活推理机制的内部结构化空间表征——能显著增强模型对不可见空间的理解能力。