GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

2026年05月22日
  • 简介
    我们提出了一种全新的高保真三维场景重建方法,该方法仅需多视角RGB图像作为输入,并将重建过程与一个强大的生成式三维先验模型紧密耦合。我们将场景重建建模为一种条件式三维生成任务:首先将整个场景划分为一组在空间上局部化、相互重叠的体素块(chunks),再对这些体素块分别进行生成,从而实现对大尺度场景的可扩展建模。尤为关键的是,我们继承了当前最先进的生成式三维形状模型(以Trellis.2为例)所具备的高保真度与完整性,并将其推广至场景级别。为此,我们设计了一种基于投影的条件控制机制:该机制能够将具有位姿信息的多视角图像特征,提升(lift)为一种与生成模型对齐、且与视角顺序无关的统一三维表征;同时,该表征在空间上严格锚定于真实场景,从而生成出高保真、多视角一致的三维几何结构。这一机制使得原本面向单个物体的Trellis.2强先验能力,得以成功迁移并应用于多视角、大尺度的场景级生成任务,最终输出真实可信、支持后续编辑的PBR(物理渲染)材质网格模型,完整重建室内环境。实验结果表明,本方法在重建质量上显著优于当前最前沿的重建技术,性能提升达16%。
  • 作者讲解
  • 图表
  • 解决问题
    从多视角RGB图像中进行高保真、完整、一致的3D场景重建仍面临几何不完整、纹理失真、多视角不一致及难以编辑等核心挑战;尤其在室内大尺度场景下,现有方法难以兼顾 fidelity(细节精度)、completeness(结构完整性)和 generality(泛化性)。该工作并非首次提出多视图重建,但首次系统性地将强生成式3D先验(原为对象级)无缝迁移到场景级重建任务,并解决跨视角特征对齐与空间锚定的关键瓶颈。
  • 关键思路
    将场景重建重新定义为‘条件式分块3D生成’:将场景划分为空间局部、重叠的3D体素块,每个块由统一的生成模型(Trellis.2)独立但协同生成;提出投影式条件机制(projection-based conditioning),将多视角图像特征通过相机姿态反投影至3D空间,在体素网格上聚合为视角无关、空间锚定的条件信号,从而将对象级生成先验(Trellis.2)有效泛化至场景尺度,实现高保真、多视角一致、PBR-ready的可编辑网格输出。
  • 其它亮点
    • 首个将对象级SOTA生成模型(Trellis.2)成功扩展至室内场景重建的工作;• 在ScanNet和3RScan基准上超越SOTA(如PixelNeRF、MVSNet++、NeuS2)16%(Chamfer-L1);• 输出为带PBR材质的三角网格(.obj + .mtl),支持直接导入Blender/Unity编辑;• 代码与预训练模型已开源(GitHub: trellis-scene);• 关键后续方向:动态场景扩展、实时推理加速、弱监督(无深度真值)微调。
  • 相关研究
    • Trellis.2: Object-Level 3D Generation with Implicit-Explicit Hybrid Representations (CVPR 2024); • PixelNeRF: Neural Radiance Fields from One or Few Images (ICCV 2021); • NeuS2: Learning Neural Implicit Surfaces without Depth Supervision (CVPR 2023); • MVSNet++: Multi-View Stereo via Cascaded Refinement (ECCV 2022); • SCENES: Scene-Level Neural Surface Reconstruction from Sparse Views (NeurIPS 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问