Open-Vocabulary SAM3D: Understand Any 3D Scene

2024年05月24日
  • 简介
    开放词汇的三维场景理解是该领域的一个重大挑战。最近的进展试图将嵌入在视觉语言模型中的知识从二维领域转移到三维领域。然而,这些方法通常需要从特定的三维场景数据集中学习先前的知识,这限制了它们在开放世界场景中的适用性。分割任何模型(SAM)已经展示了卓越的零样本分割能力,促使我们探索它在理解三维场景方面的潜力,而无需进行训练。在本文中,我们介绍了OV-SAM3D,一个用于开放词汇三维场景理解的通用框架。该框架旨在为任何三维场景执行理解任务,而无需先前了解该场景。具体而言,我们的方法由两个关键子模块组成:首先,我们通过生成超点作为初始三维提示来启动该过程,并使用从SAM导出的分割掩模来改进这些提示。此外,我们还将具有开放标签的特别设计的重叠得分表与Recognize Anything Model(RAM)结合起来,以生成具有开放世界标签的最终三维实例。在ScanNet200和nuScenes数据集上进行的实证评估表明,我们的方法在未知的开放世界环境中超过了现有的开放词汇方法。
  • 图表
  • 解决问题
    本论文旨在解决开放词汇的3D场景理解问题,即如何在不需要特定数据集的情况下,实现对任意3D场景的理解。
  • 关键思路
    本文提出了一种名为OV-SAM3D的通用框架,通过生成超级点并使用SAM得到的分割掩模进行优化,再结合RAM的开放标签和特殊设计的重叠分数表来生成开放世界标签的最终3D实例。
  • 其它亮点
    本文的实验使用了ScanNet200和nuScenes数据集,并且证明了OV-SAM3D方法在未知开放世界环境下优于现有的开放词汇方法。此外,本文的方法不需要特定的数据集,具有较强的通用性。
  • 相关研究
    最近的相关研究包括:《3D场景理解的深度学习方法:综述》、《基于超像素的3D场景理解:综述》、《3D场景理解的深度学习方法:综述与未来展望》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论