- 简介视觉语言模型(VLMs)能否像人类一样,仅凭几个视角就想象出整个场景?人类通过构建空间心智模型——即对不可见空间的内部表征——来推理布局、视角和运动。我们新提出的 MindCube 基准测试包含 21,154 个问题,覆盖 3,268 张图像,揭示了这一关键能力上的显著差距:现有的 VLMs 表现接近随机猜测。借助 MindCube,我们系统地评估了 VLMs 在表达位置(认知映射)、方向(视角转换)和动态(对“如果……会怎样”移动的心理模拟)方面构建稳健空间心智模型的能力。 接着,我们探索了三种帮助 VLMs 接近空间心智模型的方法:引入未见过的中间视角、自然语言推理链以及认知地图。其中,一种结合性的方法“先建图后推理”带来了显著提升,该方法联合训练模型首先生成认知地图,然后基于地图进行推理。通过训练模型在这些内部地图上进行推理,我们将准确率从 37.8% 提高到了 60.8%(提升了 +23.0%)。进一步加入强化学习后,性能甚至提升至 70.7%(提升了 +32.9%)。 我们的核心发现是:这种空间心智模型的搭建过程——主动构建并利用具有灵活推理机制的内部结构化空间表征——能显著增强模型对不可见空间的理解能力。
- 图表
- 解决问题论文试图解决视觉语言模型(VLMs)在从少量视角想象完整场景方面的能力不足问题,类似于人类形成空间心智模型的能力。这个问题是一个新问题,表明当前的VLMs缺乏对未观测空间的有效理解和推理能力。
- 关键思路论文的关键思路是提出了一种“先建图后推理”(map-then-reason)的方法,通过联合训练模型生成认知地图并在其基础上进行推理,从而提升VLMs的空间理解能力。相比现有研究,这种方法强调了内部结构化空间表示与灵活推理过程的结合,具有显著的新意。
- 其它亮点{"提出了MindCube基准测试,包含21,154个问题和3,268张图像,系统评估VLMs在认知映射、视角转换和心智模拟方面的能力。",实验结果显示,“map-then-reason”方法将准确率提升了+23.0%(从37.8%到60.8%),进一步结合强化学习后提升至70.7%。,论文探索了多种方法,包括中间视图生成、自然语言推理链和认知地图构建,并展示了它们的协同效应。,论文为未来的研究提供了新的方向,例如如何更好地建模未观测空间以及开发更复杂的空间推理机制。}
- {"Neural Scene Representations for Visual Reasoning (2022)","Cognitive Mapping and Planning for Visual Navigation (2021)","Spatial Memory Networks for Scene Understanding (2023)","Mental Imagery in Vision-and-Language: A Survey of Recent Advances (2023)","Language Models with Cognitive Maps for Spatial Reasoning (2024)"}
沙发等你来抢
去评论
评论
沙发等你来抢