- 简介近期在密集三维重建方面的进展带来了显著的成果,然而实现精确的统一几何预测仍然是一个主要挑战。目前的大多数方法仅限于从输入图像中预测单一几何量。然而,几何量如深度、表面法线和点图本质上是相互关联的,孤立地进行估计往往无法保证一致性,从而限制了准确性和实际应用性。这促使我们探索一种统一的框架,通过显式建模不同几何属性之间的结构耦合关系,实现联合回归。 本文提出了Dens3R,这是一个用于联合几何密集预测的三维基础模型,并可适应多种下游任务。Dens3R采用了一个两阶段训练框架,逐步构建一种既具有泛化能力又具备内在不变性的点图表示。具体而言,我们设计了一个轻量级的共享编解码器主干网络,并引入位置插值的旋转位置编码,在保持表达能力的同时增强了对高分辨率输入的鲁棒性。通过融合图像对匹配特征与内在不变性建模,Dens3R能够准确地回归包括表面法线和深度在内的多种几何量,实现了从单视角到多视角输入的一致性几何感知。此外,我们还提出了一种后处理流程,支持几何一致的多视角推理。大量实验表明,Dens3R在各种密集三维预测任务中表现出色,展示了其在更广泛应用场景中的潜力。
- 图表
- 解决问题论文旨在解决密集3D重建中统一几何预测不准确的问题。现有的方法通常只能从输入图像中预测单一的几何量(如深度、表面法线或点图),而忽略了它们之间的相关性,导致几何不一致,限制了准确性和实用性。这是一个在3D视觉领域长期存在且具有挑战性的问题。
- 关键思路论文提出Dens3R,一个用于联合几何密集预测的3D基础模型。其关键思路是通过显式建模不同几何属性之间的结构耦合关系,实现深度、法线等几何量的联合回归。相比以往方法,Dens3R采用两阶段训练框架,结合轻量级共享编码-解码结构和位置插值旋转位置编码,增强了对高分辨率输入的鲁棒性和表达能力。
- 其它亮点1. 设计了轻量级共享编码器-解码器结构,提升了模型效率与泛化能力。 2. 引入位置插值旋转位置编码(PI-RoPE),增强对高分辨率输入的建模能力。 3. 提出结合图像对匹配特征与内在不变性建模的统一几何回归框架。 4. 提供支持几何一致性的多视角推理后处理流程。 5. 在多个密集3D预测任务上展现出优越性能,具备广泛应用潜力。 6. 可能开源代码和模型,推动后续研究。
- 1. 《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》 2. 《Deep Learning for 3D Point Clouds: A Survey》 3. 《Monocular 3D Object Detection with Depth-Aware Distillation》 4. 《Surface Normal Estimation from 2D Images: A Review》 5. 《Unified Depth and Surface Normal Estimation from a Single Image》 6. 《PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation》
沙发等你来抢
去评论
评论
沙发等你来抢