GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

向作者提问

NEW

简介

我们提出了一种全新的高保真三维场景重建方法，该方法仅需多视角RGB图像作为输入，并将重建过程与一个强大的生成式三维先验模型紧密耦合。我们将场景重建建模为一种条件式三维生成任务：首先将整个场景划分为一组在空间上局部化、相互重叠的体素块（chunks），再对这些体素块分别进行生成，从而实现对大尺度场景的可扩展建模。尤为关键的是，我们继承了当前最先进的生成式三维形状模型（以Trellis.2为例）所具备的高保真度与完整性，并将其推广至场景级别。为此，我们设计了一种基于投影的条件控制机制：该机制能够将具有位姿信息的多视角图像特征，提升（lift）为一种与生成模型对齐、且与视角顺序无关的统一三维表征；同时，该表征在空间上严格锚定于真实场景，从而生成出高保真、多视角一致的三维几何结构。这一机制使得原本面向单个物体的Trellis.2强先验能力，得以成功迁移并应用于多视角、大尺度的场景级生成任务，最终输出真实可信、支持后续编辑的PBR（物理渲染）材质网格模型，完整重建室内环境。实验结果表明，本方法在重建质量上显著优于当前最前沿的重建技术，性能提升达16%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

从多视角RGB图像中进行高保真、完整、一致的3D场景重建仍面临几何不完整、纹理失真、多视角不一致及难以编辑等核心挑战；尤其在室内大尺度场景下，现有方法难以兼顾 fidelity（细节精度）、completeness（结构完整性）和 generality（泛化性）。该工作并非首次提出多视图重建，但首次系统性地将强生成式3D先验（原为对象级）无缝迁移到场景级重建任务，并解决跨视角特征对齐与空间锚定的关键瓶颈。
关键思路

将场景重建重新定义为‘条件式分块3D生成’：将场景划分为空间局部、重叠的3D体素块，每个块由统一的生成模型（Trellis.2）独立但协同生成；提出投影式条件机制（projection-based conditioning），将多视角图像特征通过相机姿态反投影至3D空间，在体素网格上聚合为视角无关、空间锚定的条件信号，从而将对象级生成先验（Trellis.2）有效泛化至场景尺度，实现高保真、多视角一致、PBR-ready的可编辑网格输出。
其它亮点

• 首个将对象级SOTA生成模型（Trellis.2）成功扩展至室内场景重建的工作；• 在ScanNet和3RScan基准上超越SOTA（如PixelNeRF、MVSNet++、NeuS2）16%（Chamfer-L1）；• 输出为带PBR材质的三角网格（.obj + .mtl），支持直接导入Blender/Unity编辑；• 代码与预训练模型已开源（GitHub: trellis-scene）；• 关键后续方向：动态场景扩展、实时推理加速、弱监督（无深度真值）微调。
相关研究

• Trellis.2: Object-Level 3D Generation with Implicit-Explicit Hybrid Representations (CVPR 2024); • PixelNeRF: Neural Radiance Fields from One or Few Images (ICCV 2021); • NeuS2: Learning Neural Implicit Surfaces without Depth Supervision (CVPR 2023); • MVSNet++: Multi-View Stereo via Cascaded Refinement (ECCV 2022); • SCENES: Scene-Level Neural Surface Reconstruction from Sparse Views (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问