WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting

2025年10月12日
  • 简介
    我们提出WorldMirror,这是一种一体化的前馈模型,适用于多种3D几何预测任务。与现有方法通常受限于纯图像输入或专为特定任务设计不同,我们的框架能够灵活融合多种几何先验信息,包括相机位姿、内参和深度图,同时生成多种3D表示形式:稠密点云、多视角深度图、相机参数、表面法向量以及3D高斯分布。这一简洁而统一的架构充分利用可用的先验信息,消除结构上的歧义,并通过单次前向传播即可输出几何上一致的3D结果。WorldMirror在涵盖相机估计、点云映射、深度估计、表面法向量估计到新视角合成等多个基准测试中均达到了最先进的性能,同时保持了前馈推理的高效性。代码和模型将很快公开发布。
  • 图表
  • 解决问题
    论文旨在解决现有3D几何预测方法受限于单一输入模态(如仅图像)或特定任务定制化的问题,导致难以灵活融合多源几何先验信息并统一生成多种3D表示。该问题在构建通用、高效且几何一致的3D场景重建系统中具有挑战性,并非全新问题,但尚未被有效统一解决。
  • 关键思路
    提出WorldMirror,一种端到端前馈的统一模型架构,能够灵活集成相机姿态、内参、深度图等多种几何先验,并通过单次前向传播同时生成包括稠密点云、多视角深度图、相机参数、表面法线和3D高斯在内的多种3D表示形式,利用先验信息缓解结构歧义,实现跨任务一致性。
  • 其它亮点
    WorldMirror在多个基准任务上达到SOTA性能,涵盖相机估计、点云重建、深度预测、法线估计和新视角合成;采用feed-forward设计保证推理效率;支持灵活的输入配置以适应不同可用先验;实验覆盖多样数据集(虽未明确列出,但可推测包含MVS、RGB-D及新视角合成常用数据集);作者承诺将公开代码与模型,具备良好可复现性;其多输出、多先验融合能力为未来通用3D场景理解提供新方向。
  • 相关研究
    1. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 2. Depth Estimation from Image and Video: A Survey of Deep Learning Methods 3. PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies 4. GAUSSIAN SPLATTING FOR REAL-TIME RADIANCE FIELD RENDERING 5. Unified Multi-Task Architectures for 3D Scene Understanding
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论