- 简介神经辐射场(NeRF)已展现出其在表示3D几何结构方面的卓越能力,但在训练过程中需要准确预计算的相机姿态。为了减少这一需求,现有方法通常联合优化相机姿态和NeRF,这些方法往往依赖良好的姿态初始化或深度先验。然而,在具有挑战性的场景中(例如大范围旋转),这些方法表现不佳,因为它们将每个相机映射到一个世界坐标系中。我们提出了一种新颖的方法,通过将连续的相机运动建模为时间依赖的角速度和线速度,从而消除了对先验条件的依赖。首先通过速度积分学习相机之间的相对运动,然后通过汇总这些相对运动到视频内某一时间步定义的世界坐标系中,可以得到相机的姿态。具体来说,通过时间依赖的NeRF学习精确的连续相机运动,该NeRF通过从邻近帧中进行训练来捕捉局部场景几何结构和运动。所学到的运动能够进一步微调NeRF以表示完整的场景几何结构。在Co3D和Scannet上的实验表明,我们的方法在相机姿态和深度估计方面优于现有方法,并且在新视角合成性能上与最先进的方法相当。我们的代码可在 https://github.com/HoangChuongNguyen/cope-nerf 获取。
- 图表
- 解决问题论文试图解决NeRF模型在训练时需要准确预计算相机姿态的问题,尤其是在面对大旋转等复杂场景时,现有方法依赖良好的姿态初始化或深度先验,这限制了其鲁棒性。这是一个已有问题,但当前方法在挑战性场景下的表现不佳。
- 关键思路相比直接优化相机姿态,该论文提出通过建模连续相机运动作为时间依赖的角速度和速度来学习相对运动。具体来说,通过时间依赖的NeRF捕捉局部场景几何和运动,并从相邻帧中学习每个时间步的相机运动。这种方法消除了对精确姿态初始化或深度先验的依赖,同时允许通过聚合相对运动得到全局姿态。
- 其它亮点1. 提出了通过时间依赖的速度和角速度建模相机运动的方法,能够更好地处理大旋转场景;2. 在Co3D和ScanNet数据集上展示了优越的相机姿态和深度估计性能,同时保持与SOTA方法相当的新视角合成效果;3. 开源代码可供研究者复现和改进;4. 值得进一步研究如何将该方法扩展到动态场景或多目标场景。
- 近期相关研究包括:1.《Plenoxels: Radiance Fields without Neural Networks》提出了基于体素的替代方案以降低NeRF计算成本;2.《BARF: Bundle-Adjusting Neural Radiance Fields》结合光束调整优化相机姿态和NeRF参数;3.《MVSNeRF: Leveraging Multi-View Stereo for Neural Radiance Fields》利用多视图立体视觉技术生成高质量NeRF模型;4. 《ColMap SfM and MVS》提供了传统SfM/MVS方法的对比基线。
沙发等你来抢
去评论
评论
沙发等你来抢