- 简介由于大规模的三维文本数据很稀缺,这对于开放词汇的三维场景理解构成了巨大挑战,因此利用互联网规模的二维数据并通过知识蒸馏将其开放词汇的能力转移到三维模型上变得流行起来。然而,现有的基于蒸馏的三维场景理解方法依赖于二维模型的表示能力,忽略了探索几何先验和三维数据所提供的内在表示优势。本文提出了一种有效的方法,即几何引导自蒸馏(GGSD),从二维预训练模型中学习出优秀的三维表示。具体而言,我们首先设计了一个几何引导蒸馏模块来从二维模型中蒸馏知识,然后利用三维几何先验来减轻二维模型中固有的噪声并增强表示学习过程。由于三维表示的优势,蒸馏后的三维学生模型的性能可以显著超过二维教师模型。这促使我们进一步通过自蒸馏来利用三维数据的表示优势。因此,我们提出的GGSD方法在室内和室外基准数据集上的实验表明,其性能显著优于现有的开放词汇三维场景理解方法。
- 图表
- 解决问题本文试图通过Geometry Guided Self-Distillation (GGSD)的方法,解决大规模3D文本匹配数据的稀缺问题,提高3D场景理解的能力。
- 关键思路文章提出了一种新的方法,通过从2D预训练模型中提取知识,结合3D几何先验知识,进行超越2D模型的3D表示学习。同时,通过自我蒸馏进一步提高3D表示能力。
- 其它亮点实验结果表明GGSD方法在室内和室外基准数据集上都表现优异,超过了现有的开放词汇3D场景理解方法。文章还开源了代码,值得进一步研究。
- 最近的相关研究包括:'3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction', 'PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation'等。
沙发等你来抢
去评论
评论
沙发等你来抢