G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

向作者提问

NEW

简介

视觉-语言模型（VLM）在空间智能方面仍缺乏足够的鲁棒性，在空间理解与推理任务中表现欠佳。我们认为这一不足源于现有模型缺少一种能够从二维图像重建三维空间的视觉几何学习过程。为此，我们提出了G²VLM——一种以几何为基础的视觉-语言模型，旨在连接空间智能的两个核心方面：三维空间重建与空间理解。G²VLM原生地利用所学得的三维视觉几何特征，通过上下文内学习和交错式推理，直接预测三维属性并增强空间推理能力。我们的统一架构在空间理解方面具有高度可扩展性：它能够在大量多视角图像和视频数据上进行训练，同时充分利用通常仅能通过难以获取的标注才能获得的三维视觉先验知识。实验结果表明，G²VLM在这两类任务上均表现出色，其三维重建性能可媲美当前最先进的前馈式三维重建模型，而在各类空间理解与推理任务中的表现则达到或超过了现有方法。通过将语义表达能力强的视觉-语言模型与底层三维视觉任务相结合，我们希望G²VLM能为学术界提供一个强有力的基线模型，并推动更多未来应用的发展，例如三维场景编辑。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前视觉-语言模型（VLMs）在空间智能方面的不足，尤其是在空间理解与推理任务中表现不佳的问题。核心问题在于现有VLM缺乏从2D图像重建3D空间的视觉几何学习能力，导致对空间关系的理解不充分。这一问题虽然已被部分研究关注，但尚未被系统性地整合到主流VLM架构中，因此仍是一个亟待突破的重要方向。
关键思路

提出G²VLM（Geometry-Grounded Vision-Language Model），通过将3D视觉几何特征原生融入VLM，统一实现3D空间重建与空间理解。其关键创新在于：模型在无需密集3D标注的情况下，利用多视角图像和视频数据进行自监督几何学习，并将学到的3D结构先验用于增强上下文学习和交错式空间推理，从而实现对3D属性的直接预测和更优的空间推理性能。
其它亮点

实验设计上，G²VLM在多个空间理解与推理基准上进行了评估，同时验证了其在3D重建任务上的表现。结果显示，该模型在3D重建方面可媲美最先进的前馈模型，在空间推理任务上达到或超越现有方法。模型充分利用了易获取的多视角图像与视频数据，避免依赖稀缺的3D标注，具备良好的可扩展性。代码已开源，推动社区进一步研究。未来值得探索的方向包括3D场景编辑、具身智能中的空间规划以及跨模态3D生成。
相关研究

1. “LLaVA: Large Language and Vision Assistant” 2. “Flamingo: a Visual Language Model for Few-Shot Learning” 3. “3D-Scene Reconstruction by Neural Radiance Fields” 4. “NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections” 5. “Panoptic Neural Fields: A Semantic 3D Scene Representation”

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问