- 简介最近的3D高斯点插值(GS)展示了在3D场景中高质量实时合成新视角的能力。目前,它主要关注几何和外观建模,缺乏对场景的语义理解。为了弥补这一差距,我们提出了CLIP-GS,它将Contrastive Language-Image Pre-Training(CLIP)中的语义集成到高斯点插值中,以有效地理解3D环境,而无需注释的语义数据。具体来说,我们提出了一个语义属性紧凑性(SAC)方法,而不是直接学习和渲染3D高斯的高维语义特征,这会显著降低效率。SAC利用对象内固有的统一语义来学习3D高斯的紧凑而有效的语义表示,实现高效渲染(>100 FPS)。此外,为了解决由于使用视角不一致的2D CLIP语义监督高斯所引起的语义歧义,我们引入了一种3D一致自训练(3DCS)策略,利用3D模型来源于多视图的一致性。3DCS通过利用训练的3D高斯模型导出的精细的自我预测伪标签来施加跨视图的语义一致性约束,从而增强精确和视图一致的分割结果。大量实验证明,我们的方法明显优于现有的最先进方法,在Replica和ScanNet数据集上的mIoU指标分别提高了17.29%和20.81%,同时保持实时渲染速度。此外,我们的方法即使在稀疏输入数据的情况下也表现出优越的性能,验证了我们方法的鲁棒性。
- 图表
- 解决问题论文旨在将语义信息与3D高斯喷洒相结合,以便更好地理解3D环境,同时保持实时渲染速度。此前,高斯喷洒主要关注几何和外观建模,缺乏场景的语义理解。
- 关键思路CLIP-GS将对比性语言-图像预训练(CLIP)中的语义与高斯喷洒相结合,使用Semantic Attribute Compactness(SAC)方法来学习3D高斯函数的紧凑语义表示,并使用3D Coherent Self-training(3DCS)策略来处理语义模糊性。
- 其它亮点论文通过实验验证了CLIP-GS方法的性能优越性,其在Replica和ScanNet数据集上的mIoU指标分别提高了17.29%和20.81%,同时保持实时渲染速度。CLIP-GS还展现出在稀疏输入数据下的优越性能。
- 相关研究包括3D场景重建、语义分割和对比性学习等领域。其中,与本文最相关的研究包括DeepVoxels、3D-R2N2、SGN和VoxelFlow等。
沙发等你来抢
去评论
评论
沙发等你来抢