- 简介本文提出了一种名为3DSS-VLG的弱监督方法,用于3D语义分割,采用2D视觉语言引导的方法,即3D模型预测每个点的密集嵌入,该嵌入与来自2D视觉语言模型的对齐图像和文本空间共同嵌入。具体而言,我们的方法利用了2D视觉语言模型的优越泛化能力,并提出了嵌入软引导阶段来利用它来隐式地对齐3D嵌入和文本嵌入。此外,我们引入了嵌入专业化阶段,通过给定的场景级标签来净化特征表示,指定由相应文本嵌入监督的更好特征。因此,3D模型能够从图像嵌入和文本嵌入中获得信息丰富的监督,从而实现竞争性的分割性能。据我们所知,这是第一篇利用文本类别标签的文本语义信息来研究3D弱监督语义分割的工作。此外,通过广泛的定量和定性实验,我们提出,我们的3DSS-VLG不仅能够在S3DIS和ScanNet数据集上实现最先进的性能,而且还能保持强大的泛化能力。
- 图表
- 解决问题本文提出了一种基于2D视觉语言引导的弱监督方法,用于解决3D语义分割问题。该方法旨在利用2D视觉语言模型的优越泛化能力,结合图像和文本嵌入来对齐3D嵌入,从而实现更好的监督。
- 关键思路本文提出的方法包括嵌入软引导阶段和嵌入专业化阶段,分别用于对齐3D嵌入和文本嵌入,并通过给定的场景级标签来纯化特征表示,从而实现更好的监督。
- 其它亮点本文是首个探讨使用文本语义信息进行3D弱监督语义分割的工作,实验结果表明该方法在S3DIS和ScanNet数据集上均取得了最先进的性能,并且具有强大的泛化能力。
- 最近的相关研究包括:《Weakly Supervised 3D Object Detection from Lidar and Vision》、《Weakly Supervised Learning of 3D Objects for Semantic Segmentation》等。
沙发等你来抢
去评论
评论
沙发等你来抢