SpatialRGPT: Grounded Spatial Reasoning in Vision Language Model

2024年06月03日
  • 简介
    视觉语言模型(VLMs)在2D视觉和语言任务中表现出了出色的性能,但它们对空间布局的推理能力仍然有限。在本研究中,我们介绍了Spatial Region GPT(SpatialRGPT),以增强VLMs的空间感知和推理能力。SpatialRGPT通过两个关键创新推进了VLMs的空间理解:(1)数据筛选流程,使得从3D场景图中学习区域表示变得有效;(2)灵活的插件模块,将深度信息集成到现有VLMs的视觉编码器中。在推理过程中,当提供用户指定的区域建议时,SpatialRGPT可以准确地感知它们的相对方向和距离。此外,我们提出了SpatialRGBT-Bench,这是一个基于地面实况3D注释的基准测试,涵盖室内、室外和模拟环境,用于评估VLMs中的3D空间认知。我们的结果表明,SpatialRGPT显著提高了空间推理任务的性能,无论是否有本地区域提示。该模型还展现出强大的泛化能力,有效地推理复杂的空间关系,并作为面向机器人任务的区域感知密集奖励注释器。代码、数据集和基准测试将在https://www.anjiecheng.me/SpatialRGPT上发布。
  • 图表
  • 解决问题
    本文旨在提高视觉语言模型(VLMs)在空间感知和推理方面的能力,通过引入Spatial Region GPT(SpatialRGPT)来解决VLMs在空间排列方面的限制。
  • 关键思路
    SpatialRGPT通过两个关键创新来提高VLMs的空间理解能力:(1)数据筛选管道,从3D场景图中有效地学习区域表示,(2)灵活的插件模块,将深度信息集成到现有VLMs的视觉编码器中。
  • 其它亮点
    实验结果表明,SpatialRGPT显着提高了空间推理任务的性能,无论是否提供本地区域提示。该模型还展现了强大的泛化能力,有效地推理复杂的空间关系,成为机器人任务的区域感知密集奖励注释器。此外,论文提出了SpatialRGBT-Bench,一个包含室内、室外和模拟环境的具有地面真实3D注释的基准,用于评估VLMs中的3D空间认知。
  • 相关研究
    最近在该领域中的相关研究有:《Learning to Compose 3D Objects from Single-view Silhouettes》、《EmbodiedQA: Bridging the Gap between Vision and Language Navigation》、《Embodied Question Answering in Photorealistic Environments with Point Cloud Perception》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论