Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes

2024年04月09日
  • 简介
    密集场景重建用于逼真视角合成,具有各种应用,如VR / AR,自动驾驶汽车。然而,由于三个核心挑战,大规模场景下大多数现有方法存在困难:\textit{(a)深度输入不准确}。在现实世界的大规模场景中,准确的深度输入是不可能得到的。\textit{(b)姿态估计不准确}。大多数现有方法依赖于准确的预估相机姿态。\textit{(c)场景表示能力不足}。单个全局辐射场缺乏有效扩展到大规模场景的能力。为此,我们提出了一个增量联合学习框架,可以实现准确的深度,姿态估计和大规模场景重建。采用基于视觉变换器的网络作为骨干,以增强规模信息估计的性能。对于姿态估计,在大规模场景中设计了一种特征度量捆绑调整(FBA)方法,以实现准确和稳健的相机跟踪。在隐式场景表示方面,我们提出了一种增量场景表示方法,将整个大规模场景构建为多个局部辐射场,以增强3D场景表示的可扩展性。进行了扩展实验,以证明我们的方法在深度估计,姿态估计和大规模场景重建方面的有效性和准确性。
  • 图表
  • 解决问题
    本论文旨在解决大规模场景下密集场景重建的问题,包括深度输入不准确、姿态估计不准确、场景表示能力不足等问题。
  • 关键思路
    本论文提出了一种增量联合学习框架,采用基于视觉变换器的网络作为骨干网络,以提高规模信息估计的性能。针对姿态估计,设计了一种特征度量束调整(FBA)方法,用于在大规模场景中进行准确和稳健的相机跟踪。针对隐式场景表示,提出了一种增量场景表示方法,将整个大规模场景构建为多个局部辐射场,以增强三维场景表示的可扩展性。
  • 其它亮点
    本论文在深度估计、姿态估计和大规模场景重建方面展示了其方法的有效性和准确性。实验使用了公开数据集,并开源了代码。值得进一步研究的工作包括更好的场景表示和更高效的相机跟踪方法。
  • 相关研究
    最近的相关研究包括《DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation》、《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论