MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision

2024年10月24日
  • 简介
    我们提出了MoGe,这是一种从单目开放域图像中恢复3D几何结构的强大模型。给定一张图像,我们的模型可以直接预测捕获场景的3D点图,并采用仿射不变表示,这种表示与真实的全局尺度和平移无关。这种新的表示方法排除了训练中的模糊监督,并促进了有效的几何学习。此外,我们提出了一套新颖的全局和局部几何监督方法,使模型能够学习高质量的几何结构。这些方法包括一种鲁棒、最优且高效的点云对齐求解器,用于精确的全局形状学习,以及一个多尺度局部几何损失,以促进精确的局部几何监督。我们在一个大型混合数据集上训练了我们的模型,并展示了其强大的泛化能力和高精度。在我们对各种未见过的数据集进行的全面评估中,我们的模型在所有任务上都显著优于现有最先进方法,包括单目3D点图、深度图和相机视场的估计。代码和模型将在我们的项目页面上发布。
  • 图表
  • 解决问题
    该论文旨在解决从单目开放域图像中恢复3D几何结构的问题。这是一个具有挑战性的问题,因为单个图像通常缺乏深度信息,导致3D重建的不确定性。尽管已有许多方法尝试解决这个问题,但MoGe模型通过引入新的表示和监督机制,提供了更准确和鲁棒的解决方案。
  • 关键思路
    MoGe模型的关键思路是引入了一种仿射不变的3D点图表示,这种表示对全局尺度和平移不敏感,从而避免了训练中的模糊监督问题。此外,论文提出了一套新的全局和局部几何监督方法,包括一个鲁棒且高效的点云对齐求解器和多尺度局部几何损失,以促进高质量的几何学习。这些创新使得模型能够在大规模混合数据集上进行训练,并在未见过的数据集上表现出强大的泛化能力和高精度。
  • 其它亮点
    论文的其他亮点包括:1) 在多个任务上的全面评估,如3D点图、深度图和相机视场估计,结果显示显著优于现有方法;2) 使用了多样化的数据集,展示了模型的强大泛化能力;3) 论文计划开源代码和模型,便于后续研究者复现和进一步探索。未来的研究可以进一步优化模型的效率和鲁棒性,探索更多应用场景。
  • 相关研究
    近年来,关于从单目图像中恢复3D几何结构的研究有很多。例如,《MonoDepth2: Improved Single-Image Depth Estimation》提出了改进的单目深度估计方法;《MVSNet: Depth Inference for Unstructured Multi-View Stereo》则专注于多视角立体视觉中的深度推断;《DSNeRF: Dense Scene Representation for Novel View Synthesis》探讨了基于神经辐射场的密集场景表示。这些研究都为MoGe模型的发展提供了重要的基础和参考。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论