SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

2024年01月22日
  • 简介
    理解和推理空间关系是视觉问答(VQA)和机器人的基本能力。虽然视觉语言模型(VLM)在某些VQA基准测试中表现出了出色的性能,但它们仍然缺乏3D空间推理的能力,例如识别物理对象的数量关系,如距离或大小差异。我们假设VLM的有限空间推理能力是由于训练数据中缺乏3D空间知识所致,并旨在通过使用互联网规模的空间推理数据来训练VLM来解决这个问题。为此,我们提出了一个系统来促进这种方法。我们首先开发了一个自动的3D空间VQA数据生成框架,可以扩展到10亿VQA示例和1000万真实世界图像。然后,我们调查了训练配方中的各种因素,包括数据质量、训练流程和VLM架构。我们的工作特点是度量空间中第一个互联网规模的3D空间推理数据集。通过在这样的数据上训练VLM,我们显着增强了它在定性和定量空间VQA方面的能力。最后,我们证明了这个VLM由于其数量估计能力,解锁了链式思维空间推理和机器人的新颖下游应用。项目网站:https://spatial-vlm.github.io/
  • 图表
  • 解决问题
    本文试图通过训练视觉语言模型(VLM)使用互联网规模的空间推理数据以提高其三维空间推理能力,从而解决VLM在诸如距离或大小差异等物理对象的数量关系方面的局限性。
  • 关键思路
    本文的关键思路是使用互联网规模的空间推理数据来训练VLM,从而增强其三维空间推理能力。
  • 其它亮点
    本文开发了一个自动的三维空间视觉问答数据生成框架,可以在1000万个真实世界图像上扩展到20亿个视觉问答示例。本文展示了通过训练VLM解决三维空间视觉问答问题的可行性,并在定量和定性空间视觉问答中显著提高了性能。最后,本文展示了由于其定量估计能力,该VLM在链式思考空间推理和机器人学中解锁了新的下游应用。
  • 相关研究
    最近在这个领域的相关研究包括:《Visual Question Answering: A Survey of Methods and Datasets》、《Embodied Question Answering》、《Learning to Reason: End-to-End Module Networks for Visual Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论