Spatial Mental Modeling from Limited Views

2025年06月26日
  • 简介
    视觉语言模型(VLMs)能否像人类一样,仅凭几个视角就想象出整个场景?人类通过构建空间心智模型——即对不可见空间的内部表征——来推理布局、视角和运动。我们新提出的 MindCube 基准测试包含 21,154 个问题,覆盖 3,268 张图像,揭示了这一关键能力上的显著差距:现有的 VLMs 表现接近随机猜测。借助 MindCube,我们系统地评估了 VLMs 在表达位置(认知映射)、方向(视角转换)和动态(对“如果……会怎样”移动的心理模拟)方面构建稳健空间心智模型的能力。 接着,我们探索了三种帮助 VLMs 接近空间心智模型的方法:引入未见过的中间视角、自然语言推理链以及认知地图。其中,一种结合性的方法“先建图后推理”带来了显著提升,该方法联合训练模型首先生成认知地图,然后基于地图进行推理。通过训练模型在这些内部地图上进行推理,我们将准确率从 37.8% 提高到了 60.8%(提升了 +23.0%)。进一步加入强化学习后,性能甚至提升至 70.7%(提升了 +32.9%)。 我们的核心发现是:这种空间心智模型的搭建过程——主动构建并利用具有灵活推理机制的内部结构化空间表征——能显著增强模型对不可见空间的理解能力。
  • 图表
  • 解决问题
    论文试图解决视觉语言模型(VLMs)在从少量视角想象完整场景方面的能力不足问题,类似于人类形成空间心智模型的能力。这个问题是一个新问题,表明当前的VLMs缺乏对未观测空间的有效理解和推理能力。
  • 关键思路
    论文的关键思路是提出了一种“先建图后推理”(map-then-reason)的方法,通过联合训练模型生成认知地图并在其基础上进行推理,从而提升VLMs的空间理解能力。相比现有研究,这种方法强调了内部结构化空间表示与灵活推理过程的结合,具有显著的新意。
  • 其它亮点
    1. 提出了MindCube基准测试,包含21,154个问题和3,268张图像,系统评估VLMs在认知映射、视角转换和心智模拟方面的能力。 2. 实验结果显示,“map-then-reason”方法将准确率提升了+23.0%(从37.8%到60.8%),进一步结合强化学习后提升至70.7%。 3. 论文探索了多种方法,包括中间视图生成、自然语言推理链和认知地图构建,并展示了它们的协同效应。 4. 论文为未来的研究提供了新的方向,例如如何更好地建模未观测空间以及开发更复杂的空间推理机制。
  • 相关研究
    1. Neural Scene Representations for Visual Reasoning (2022) 2. Cognitive Mapping and Planning for Visual Navigation (2021) 3. Spatial Memory Networks for Scene Understanding (2023) 4. Mental Imagery in Vision-and-Language: A Survey of Recent Advances (2023) 5. Language Models with Cognitive Maps for Spatial Reasoning (2024)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论