- 简介近年来,二维视觉-语言模型(VLMs)在图像-文本理解任务中取得了显著进展。然而,它们在三维空间理解方面的能力仍然有限,而这对具身智能至关重要。最近的研究利用了三维点云和多视角图像作为输入,取得了有希望的成果。然而,我们提出了一种完全基于视觉的解决方案,灵感来自人类感知,仅依赖于视觉线索进行三维空间理解。本文通过实证研究探讨了VLMs在三维空间知识方面的局限性,发现其主要缺点在于场景与单个帧之间的全局-局部对应关系不足。为了解决这一问题,我们引入了GPT4Scene,这是一种新的视觉提示范式,在VLM的训练和推理过程中帮助建立全局-局部关系,从而显著提高对室内场景的三维空间理解能力。具体来说,GPT4Scene从视频中构建了一个三维俯视图(BEV)图像,并在各个帧和BEV图像中标记一致的对象ID。然后,模型将带有标记的BEV图像和视频帧拼接在一起作为输入。在零样本评估中,GPT4Scene的表现优于像GPT-4o这样的闭源VLM。此外,我们准备了一个包含16.5万条文本注释的处理后视频数据集,用于微调开源VLM,实现了所有三维理解任务的最先进性能。令人惊讶的是,经过GPT4Scene范式的训练后,即使在推理时没有视觉提示和明确的BEV图像对应关系,VLMs的表现也持续提升。这表明所提出的范式有助于VLMs发展出内在的三维场景理解能力,为扩展预训练VLM以实现三维场景理解提供了一种非侵入性的方法。
- 图表
- 解决问题该论文试图解决现有2D视觉-语言模型(VLMs)在3D空间理解方面的局限性,特别是它们在全球与局部场景对应关系中的不足。这确实是一个新问题,因为大多数现有的研究主要集中在2D图像和文本的理解上,而较少关注3D空间的复杂性。
- 关键思路关键思路是引入GPT4Scene,一种新的视觉提示范式,通过构建3D鸟瞰图(BEV)图像并标记一致的对象ID来帮助建立全球-局部关系。这种方案的新颖之处在于它仅依赖视觉线索,无需额外的3D数据如点云或多视角图像,从而提供了一种纯粹基于视觉的解决方案,以增强VLMs对3D空间的理解。
- 其它亮点论文的其他亮点包括:1) 提出了一个包含165K文本注释的处理视频数据集用于微调开源VLMs;2) 实验表明,经过GPT4Scene训练的VLMs即使在没有显式视觉提示的情况下也能提高推理性能;3) 达到了所有3D理解任务的最先进水平;4) 开源了代码和数据集,便于后续研究。这些工作为未来的研究提供了坚实的基础,特别是在非侵入式扩展预训练VLMs以理解3D场景方面。
- 最近在这个领域中,相关的研究还包括《Learning to See by Moving: Self-Supervised Feature Learning using Sequential Image Pairs》、《3D Scene Graph Generation from Images and LiDAR》以及《Multiview Fusion for 3D Object Detection Without LiDAR: A Simple and Scalable Approach》等。这些研究探索了不同方法来提升3D场景理解能力,但大多依赖于额外的传感器数据或复杂的多视图融合技术。
沙发等你来抢
去评论
评论
沙发等你来抢