OpenSU3D: Open World 3D Scene Understanding using Foundation Models

2024年07月19日
  • 简介
    本文提出了一种新颖、可扩展的方法,用于构建开放式、实例级别的三维场景表示,推进了对三维环境的开放世界理解。现有的方法需要预先构建三维场景,并由于每个点特征向量的学习而面临可扩展性问题,从而限制了它们在复杂查询方面的功效。我们的方法通过使用2D基础模型逐步构建实例级别的三维场景表示,高效地聚合实例级别的细节,如掩膜、特征向量、名称和标题,从而克服了这些限制。我们引入了特征向量的融合方案,以增强它们的上下文知识和在复杂查询上的性能。此外,我们探索了大型语言模型,用于强大的自动注释和空间推理任务。我们在ScanNet和Replica数据集的多个场景上评估了我们提出的方法,展示了零样本泛化能力,超过了当前开放世界三维场景理解的最新方法。
  • 图表
  • 解决问题
    本论文旨在提出一种新的、可扩展的方法来构建开放式的、实例级别的3D场景表示,从而推进对3D环境的开放世界理解。
  • 关键思路
    该方法通过使用2D基础模型逐步构建实例级别的3D场景表示,有效地聚合实例级别的细节,如掩模、特征向量、名称和标题。同时,该方法采用融合方案来增强特征向量的上下文知识和在复杂查询中的性能,还探索了大型语言模型用于强大的自动注释和空间推理任务。
  • 其它亮点
    该方法在ScanNet和Replica数据集的多个场景上进行了评估,展示了零样本泛化能力,超过了当前开放世界3D场景理解的最新方法。
  • 相关研究
    与该论文相关的研究包括:《3D场景重建的深度学习方法》、《基于深度学习的3D场景理解》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论