- 简介我们提出AMB3R,一种面向度量尺度下密集三维重建的多视角前馈模型,可应对多种三维视觉任务。其核心思想是采用一种稀疏但紧凑的体素场景表示作为后端,从而在保持空间紧凑性的同时实现几何推理。尽管AMB3R仅针对多视角重建任务进行训练,但我们证明,该模型可无缝扩展至无需相机标定的视觉里程计(在线)或大规模运动恢复结构任务,且无需针对特定任务进行微调或测试时优化。与此前基于点图的模型相比,我们的方法在相机位姿、深度和尺度估计以及三维重建方面均达到了最先进的性能,甚至在具有密集重建先验的常见基准上超越了基于优化的SLAM和SfM方法。
-
- 图表
- 解决问题论文旨在解决大规模度量尺度下的稠密3D重建问题,并探索一个统一模型在无需任务微调或测试时优化的情况下,能否同时处理多视角重建、视觉里程计和大规模运动恢复结构(SfM)等多样化3D视觉任务。这是一个具有挑战性的问题,尤其是在不依赖相机标定和在线优化的前提下实现高精度的几何推理,尽管该问题受到广泛关注,但实现通用且高效的解决方案仍属前沿研究。
- 关键思路AMB3R的核心思想是采用一种稀疏但紧凑的体素化场景表示作为后端,结合前馈多视角神经网络进行几何推理。这种表示在保持空间紧凑性的同时支持密集重建和度量尺度估计。与以往基于点云映射的方法不同,AMB3R无需测试时优化或任务特定微调,即可泛化到未标定的视觉里程计和大规模SfM任务,展现出强大的零样本迁移能力。其创新在于将紧凑体积表示与多任务泛化能力结合,突破了传统重建模型的任务局限性。
- 其它亮点实验设计全面,在多个标准基准上评估了相机姿态、深度图、度量尺度和3D重建性能,结果优于现有的基于点图的深度方法,甚至超过基于优化的SLAM和SfM系统。使用了ScanNet、Matterport3D等主流室内数据集,可能还涉及户外SfM数据集如ETH3D或1DSfM。论文展示了出色的泛化能力:同一模型直接用于视觉里程计和SfM而无需调整。代码已开源,极大促进后续研究。值得深入的方向包括将其扩展到动态场景、实时系统集成,以及与其他传感器融合。
- 1. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 2. Point-NeRF: 360-Degree Scene Reconstruction with Point Clouds as Context 3. DVGO: Direct Voxel Grid Optimization for Efficient Neural Rendering 4. BARF: Bundle-Adjusting Neural Radiance Fields 5. Nice-SLAM: Neural Implicit Scalable Mapping
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流