- 简介我们介绍了NoPoSplat,这是一种前馈模型,能够从未经姿态对齐的稀疏多视角图像中重建由3D高斯参数化的3D场景。我们的模型仅使用光度损失进行训练,在推理过程中能够实现实时3D高斯重建。为了在重建过程中消除对精确姿态输入的需求,我们将一个输入视图的局部相机坐标锚定为规范空间,并训练网络预测所有视图在这个空间中的高斯原语。这种方法避免了将高斯原语从局部坐标转换到全局坐标系统的过程,从而避免了与每帧高斯和姿态估计相关的误差。为了解决尺度模糊问题,我们设计并比较了多种内参嵌入方法,最终选择将相机内参转换为令牌嵌入,并将其与图像令牌拼接作为模型的输入,从而实现准确的场景尺度预测。我们利用重建的3D高斯进行新视角合成和姿态估计任务,并提出了一种两阶段的粗到精管道以实现准确的姿态估计。实验结果表明,我们的无姿态方法在新视角合成质量上优于需要姿态的方法,特别是在输入图像重叠有限的情况下。对于姿态估计,我们的方法在没有真值深度或显式匹配损失的情况下训练,显著优于现有方法,取得了显著的改进。这项工作在无姿态通用3D重建方面取得了重要进展,并展示了其在实际场景中的应用潜力。代码和预训练模型可在https://noposplat.github.io/ 获取。
- 图表
- 解决问题该论文试图解决从无姿态信息的稀疏多视图图像中重建3D场景的问题。这是一个具有挑战性的问题,因为传统方法通常依赖于准确的相机姿态估计,而这种估计在实际应用中往往难以获得。此外,论文还探讨了如何通过3D高斯重建来实现新颖视角合成和姿态估计。
- 关键思路论文的关键思路是引入了一个名为NoPoSplat的前馈模型,该模型能够在没有精确姿态输入的情况下实时重建3D高斯场景。具体来说,模型通过将一个输入视图的局部相机坐标作为规范空间,并训练网络预测所有视图中的高斯原语来消除姿态估计的需要。为了解决尺度模糊问题,论文设计并比较了多种内在嵌入方法,最终选择将相机内参转换为token嵌入并与图像token拼接作为模型输入,从而实现准确的场景尺度预测。
- 其它亮点论文的其他亮点包括:1) 实验结果显示,该方法在新颖视角合成任务中优于需要姿态信息的方法,特别是在输入图像重叠较少的情况下;2) 在姿态估计任务中,该方法在没有深度真值或显式匹配损失的情况下显著优于现有方法;3) 论文提出了一种两阶段的粗到细的管道,用于提高姿态估计的准确性;4) 代码和预训练模型已公开发布,便于复现和进一步研究。
- 近年来,在3D重建和姿态估计领域,有许多相关研究。例如,《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》提出了基于神经辐射场的场景表示方法,用于新颖视角合成;《MonoDepth2: Unsupervised Monocular Depth Estimation》探索了单目图像的无监督深度估计;《DS-Net: Deep Surface Normals for 3D Reconstruction from a Single Image》则研究了从单张图像中恢复表面法线以进行3D重建。这些研究与NoPoSplat的不同之处在于,它们通常依赖于额外的监督信息或特定的假设,而NoPoSplat能够在无姿态信息的情况下实现高质量的3D重建。
沙发等你来抢
去评论
评论
沙发等你来抢