- 简介本文介绍了一种基于三维高斯喷洒的新型开放词汇场景理解方法——SemanticGaussians,用于分析三维场景,这是计算机视觉中的一个重大挑战,具有广泛的应用于实体代理和增强现实系统。以前的方法采用神经辐射场(NeRFs)来分析三维场景。我们的主要思路是将预训练的二维语义信息提炼到三维高斯喷洒中。我们设计了一种通用的投影方法,将来自预训练图像编码器的各种二维语义特征映射到三维高斯喷洒的新语义组件中,无需NeRFs所需的额外训练。我们进一步构建了一个三维语义网络,该网络直接从原始三维高斯喷洒中预测语义组件以进行快速推理。我们探索了SemanticGaussians的几个应用:在ScanNet-20上进行语义分割,其中我们的方法比之前的开放词汇场景理解方法提高了4.2%的mIoU和4.0%的mAcc;对象部分分割、场景编辑和时空分割等应用,与2D和3D基线相比具有更好的定性结果,突显了其在支持各种下游任务方面的多功能性和有效性。
- 图表
- 解决问题本论文旨在解决计算机视觉中的开放词汇三维场景理解问题,提出了一种基于三维高斯点插值的语义高斯模型,用于快速推断和支持多样化下游任务。
- 关键思路该论文的关键思路是将预训练的二维语义特征转化为三维高斯分布,设计了一种新颖的映射方法,将不同的二维语义特征从预训练的图像编码器映射到三维高斯模型的语义组件中,从而避免了NeRFs需要的额外训练。同时,构建了一个三维语义网络,直接从原始的三维高斯模型中预测语义组件,以实现快速推断。
- 其它亮点该论文的亮点包括:在ScanNet-20上进行的语义分割任务中,相比于之前的开放词汇三维场景理解方法,该方法的mIoU和mAcc分别提高了4.2%和4.0%;在物体部分分割、场景编辑和时空分割等多个任务中,相比于2D和3D基线方法,该方法的结果更好。此外,该论文还提供了开源代码和数据集。
- 在相关研究方面,最近的研究包括Neural Radiance Fields(NeRFs)和DeepSDF等方法,它们也是用于三维场景建模和理解的开放词汇方法。
沙发等你来抢
去评论
评论
沙发等你来抢