- 简介全景分割三维场景是一项具有挑战性的任务,它涉及对场景的密集三维重建中的物体实例进行分割和分类,尤其是在仅依赖未标定视角的二维图像时。现有方法通常借助现成的模型来提取每一帧的二维全景分割结果,然后优化一种隐式的几何表示(通常基于NeRF),以整合和融合这些二维预测。我们认为,对于本质上是三维且多视角的问题而言,仅依赖二维全景分割可能并非最优方案,因为它未能充分挖掘跨视角的空间关系潜力。除了需要相机参数之外,这些方法在测试阶段还需要针对每个场景进行计算代价高昂的优化过程。 相反,本文提出了一种统一而集成的方法 PanSt3R,该方法通过一次前向推理同时预测三维几何结构和多视角全景分割,从而消除了测试阶段优化的需要。我们的方法建立在三维重建最新进展的基础之上,具体来说是在 MUSt3R(DUSt3R 的可扩展多视角版本)之上构建,并为其增强了语义感知能力和多视角全景分割功能。我们还重新审视了标准的后处理掩码合并流程,并提出了一种更符合原理的多视角分割方法。此外,我们还引入了一种简单的方法,用于基于 PanSt3R 和普通 3DGS 的预测生成新视角下的分割结果。 总体而言,所提出的 PanSt3R 在概念上简洁,同时具备速度快、可扩展性强的优点,在多个基准数据集上达到了最先进的性能,且其运算速度比现有方法快出数量级。
- 图表
- 解决问题论文旨在解决基于无姿态2D图像的3D场景全景分割问题,即在没有相机参数的情况下,对3D场景中的对象实例进行语义分割和分类。这是一个具有挑战性的问题,因为现有方法依赖于2D分割模型和耗时的测试时优化,无法充分利用多视角间的空间关系。
- 关键思路提出了一种统一且集成的方法PanSt3R,能够在单次前向推理中联合预测3D几何结构和多视角全景分割,而无需传统的测试时优化。该方法基于MUSt3R(DUSt3R的多视角扩展),增强了语义感知能力,并重新设计了多视角掩码融合策略。
- 其它亮点{PanSt3R是首个无需测试时优化即可完成3D全景分割的方法,显著提升了推理速度。,改进了标准的后处理掩码融合步骤,提出了更合理、有效的多视角分割策略。,引入了一种基于PanSt3R和3DGS生成新视角预测的简单方法。,在多个基准数据集上达到SOTA性能,同时比现有方法快几个数量级。,方法概念简洁、高效且可扩展,适合实际应用部署。}
- {"DUSt3R: Geometric 3D Reconstruction with Diffusion Priors","MUSt3R: Scalable Multi-View 3D Reconstruction Inspired by DUSt3R","NeRF-based Panoptic Nerf: Integrating 2D Segmentations into Neural Radiance Fields","Mask3D: Instance Segmentation in 3D Scenes Using Point Cloud Processing","Open-Vocabulary Scene Understanding from 2D and 3D Data"}
沙发等你来抢
去评论
评论
沙发等你来抢