Segment Any 3D Object with Language

2024年04月02日
  • 简介
    本文研究了使用自由形式语言指令进行开放词汇三维实例分割(OV-3DIS)。早期的研究仅依赖于训练时注释的基础类别,导致在处理未见过的新类别时泛化能力受限。最近的研究通过生成与类别无关的掩模或将通用掩模从二维投影到三维来缓解对新类别的泛化能力不足,但是这种方法忽略了语义或几何信息,导致性能不佳。相反,直接从三维点云中生成既可泛化又与语义相关的掩模将导致更好的结果。因此,本文引入了一种名为“Segment any 3D Object with LanguagE(SOLE)”的语义和几何感知的视觉-语言学习框架,通过直接从三维点云中生成与语义相关的掩模,具有很强的泛化能力。具体而言,我们提出了一种多模态融合网络,以在骨干网络和解码器中融合多模态语义信息。此外,为了使三维分割模型与各种语言指令对齐并提高掩模质量,我们引入了三种类型的多模态关联作为监督。我们的SOLE在ScanNetv2、ScanNet200和Replica基准测试中的表现大大优于先前的方法,即使在训练中没有类别注释,结果也接近完全监督的对照组。此外,广泛的定性结果证明了我们的SOLE对语言指令的多样性。
  • 图表
  • 解决问题
    本论文旨在解决Open-Vocabulary 3D Instance Segmentation (OV-3DIS)领域中,使用自由形式语言指令的问题。之前的方法只依赖于基础类别的注释,导致对于未见过的新类别的泛化性能有限。最近的一些方法通过生成类无关的掩模或将广义掩模从2D投影到3D来缓解对新类别的泛化性能差的问题,但是这些方法忽略了语义或几何信息,导致性能不佳。本论文提出了Segment any 3D Object with LanguagE (SOLE)框架,通过直接从3D点云中生成与语义相关的掩模来生成具有强大泛化能力的语义和几何感知的视觉语言学习框架。
  • 关键思路
    本论文的关键思路是通过提出一种多模态融合网络来在骨干和解码器中融合多模态语义,并引入三种多模态关联作为监督来使3D分割模型与各种语言指令对齐并增强掩模质量。
  • 其它亮点
    本论文的亮点是提出了一个强大的SOLO框架,它可以直接从3D点云中生成与语义相关的掩模,具有很强的泛化能力。在ScanNetv2、ScanNet200和Replica数据集上,SOLO的性能比之前的方法要好得多,即使在训练中没有类别注释的情况下,结果也接近于完全监督的对照组。此外,大量的定性结果展示了SOLO对语言指令的多样性。
  • 相关研究
    在这个领域中,最近的相关研究包括使用深度学习技术的3D物体检测和分割,以及使用语言指令的3D物体分割等。其中一些研究包括:《3D Object Proposals using Stereo Imagery for Accurate Object Class Detection》、《3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans》和《3D Object Classification and Retrieval with Multi-modal Learning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论