- 简介随着LLMs的出现以及它们与其他数据模态的整合,由于其与物理世界的连接,多模态3D感知引起了更多关注并取得了快速进展。然而,受现有数据集的限制,以前的工作主要集中在理解3D场景中物体属性或物体间空间关系方面。为解决这个问题,本文构建了第一个最大的多模态3D场景数据集和基准,即具有分层基础语言注释的MMScan。该数据集基于自上而下的逻辑构建,从区域到对象级别,从单个目标到目标间关系,涵盖了空间和属性理解的整体方面。总体流程通过精心设计的提示,利用强大的VLMs来初始化注释,并进一步在循环中涉及人类纠正,以确保注释是自然、正确和全面的。基于现有的3D扫描数据,得到的多模态3D数据集涵盖了109k个对象和7.7k个区域上的1.4M个元注释标题,以及超过3.04M个用于3D视觉定位和问答基准的不同样本。我们在我们的基准测试上评估了代表性的基线,分析了它们在不同方面的能力,并展示了未来需要解决的关键问题。此外,我们使用这个高质量的数据集来训练最先进的3D视觉定位和LLMs,并在现有基准测试和野外评估中取得了显着的性能提升。代码、数据集和基准将在https://github.com/OpenRobotLab/EmbodiedScan上提供。
- 图表
- 解决问题本论文试图解决多模态三维场景理解中数据集有限的问题,构建了一个包含层次化基础语言注释的最大的多模态三维场景数据集和基准测试。
- 关键思路论文的关键思路是通过强大的VLMs和人类纠正来初始化注释,然后将其扩展到全面理解空间和属性,从而构建一个多模态三维场景数据集和基准测试。
- 其它亮点该数据集包含了1.4M个注释,覆盖了109k个物体和7.7k个区域,用于三维视觉定位和问答基准测试。论文使用这个高质量的数据集来训练最先进的三维视觉定位和LLMs,并在现有基准测试和野外评估中获得了显着的性能提升。代码、数据集和基准测试将在 https://github.com/OpenRobotLab/EmbodiedScan 上提供。
- 最近的相关研究包括:《3D场景理解:从RGBD图像到三维模型》、《3D场景理解:从单个视图到多模态数据》、《多模态场景理解:从视觉到语言》等。
沙发等你来抢
去评论
评论
沙发等你来抢