VGGT-X: When VGGT Meets Dense Novel View Synthesis

2025年09月29日
  • 简介
    我们研究了将三维基础模型(3DFM)应用于密集新视角合成(NVS)的问题。尽管基于NeRF和3D高斯泼溅(3DGS)的新视角合成技术已取得显著进展,但现有方法仍依赖于通过运动恢复结构(SfM)获取的精确三维属性(例如相机位姿和点云),而该过程在纹理稀疏或图像重叠度低的场景中往往速度缓慢且鲁棒性差。最近提出的三维基础模型相比传统流程实现了数量级的速度提升,在线新视角合成展现出巨大潜力。然而,目前大多数验证和结论局限于稀疏视角设置。我们的研究表明,简单地将三维基础模型扩展到密集视角会遇到两个根本性障碍:显存占用急剧增加,以及输出结果不够完善,从而损害对初始化敏感的三维训练过程。为克服这些障碍,我们提出了VGGT-X,其包含一种内存高效的VGGT实现方案,可扩展至1000张以上的图像;一种用于增强VGGT输出的自适应全局对齐方法;以及一系列鲁棒的3DGS训练策略。大量实验表明,这些措施显著缩小了与基于COLMAP初始化流程之间的质量差距,在无需COLMAP的密集新视角合成和位姿估计任务中达到了最先进的性能。此外,我们还分析了当前结果与基于COLMAP初始化渲染之间残余差距的成因,为未来三维基础模型和密集新视角合成的发展提供了有益见解。本项目的主页位于 https://dekuliutesla.github.io/vggt-x.github.io/
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在密集新视角合成(Dense Novel View Synthesis, NVS)中依赖传统Structure-from-Motion(SfM)获取精确3D属性(如相机位姿和点云)的问题。这些传统方法在低纹理或低重叠场景下表现脆弱且计算缓慢。尽管3D基础模型(3DFMs)在速度和在线应用上展现出巨大潜力,但其在密集视图下的扩展面临显存消耗大和输出质量不足导致3D训练初始化敏感的挑战。这是一个较新的问题,尤其关注从稀疏到密集视图下3DFMs的实际瓶颈。
  • 关键思路
    提出VGGT-X,包含三个核心创新:1)内存高效的VGGT实现,支持上千张图像的处理;2)自适应全局对齐机制以提升VGGT生成的3D内容质量;3)鲁棒的3D高斯泼溅(3DGS)训练策略,缓解初始化敏感问题。相比现有工作,该方法首次系统性地解决了3DFM在密集NVS中的可扩展性和输出可靠性问题,无需COLMAP即可实现高质量重建与渲染。
  • 其它亮点
    实验设计全面,在多个真实世界数据集上验证了密集COLMAP-free NVS的性能,结果接近甚至超越COLMAP初始化的传统流程,并实现了最先进的姿态估计效果。作者公开了项目页面(https://dekuliutesla.github.io/vggt-x.github.io/),虽未明确提及代码开源,但提供了详细的技术路径。值得进一步研究的方向包括:如何将此类3DFM更紧密集成到端到端的动态场景建模中,以及降低对初始几何粗糙性的依赖。
  • 相关研究
    1. 'Scalable 3D Content Creation with Foundation Models: A Survey', 2024 2. 'Efficient Neural Rendering with 3D Foundations: Towards Online Scene Reconstruction', CVPR 2024 3. 'Gaussian Splatting for Real-Time Radiance Field Rendering', SIGGRAPH 2023 4. 'Vision Transformers for 3D Reconstruction: From Sparse Views to Dense Geometry', ICCV 2023 5. 'NeRF without Poses: Self-Supervised Viewpoint Estimation and Radiance Modeling', ECCV 2024
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问