NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

向作者提问

NEW

简介

我们提出了NOVA3R，一种面向无位姿图像集合、以前馈方式实现非像素对齐三维重建的有效方法。与将几何结构严格绑定于每条光线预测结果的像素对齐方法不同，我们的建模方式学习一种全局性、与视角无关的场景表征，从而将三维重建过程与像素对齐解耦。该设计旨在克服像素对齐三维重建中的两大关键局限：（1）不仅能恢复可见区域的点，还能重建不可见区域的点，从而获得完整的场景表征；（2）生成物理上更合理、更符合真实几何规律的结构，在多视角重叠区域中显著减少冗余或重复的几何结构。为实现上述目标，我们引入了一种“场景令牌”（scene-token）机制，用于跨多张无位姿图像聚合场景信息；同时设计了一种基于扩散模型的三维解码器，用以重建完整且非像素对齐的点云。在场景级与物体级数据集上的大量实验表明，NOVA3R在重建精度与完整性两方面均显著优于当前最先进的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

从无位姿（unposed）的单目图像集合中进行非像素对齐的3D重建——即不依赖每条光线与图像像素的严格对应关系，克服传统NeRF类方法因像素对齐假设导致的几何不完整（如遮挡区域缺失）、结构重复（如重叠视图产生伪影）和泛化性差等问题。该问题在真实场景中极具挑战性，且此前尚无真正意义上的前馈式、全局、非像素对齐的端到端3D重建框架，因此具有显著新颖性。
关键思路

提出NOVA3R：通过引入场景令牌（scene-token）机制实现跨图像的全局特征聚合，解耦几何表示与视角绑定；并设计扩散驱动的3D解码器，直接生成完整、稠密、非像素对齐的点云。核心新意在于摒弃‘每条射线必须映射到某像素’的隐式假设，转而学习一个统一、视图无关的隐式场景场，使重建结果天然具备完整性与物理一致性。
其它亮点

在ScanNet（室内场景）和Objaverse（大规模物体）上系统验证，指标（Chamfer Distance、F-Score、Coverage）全面超越NeuS、Point-MVSNet、MVSFormer等SOTA；采用纯前馈架构（无迭代优化/渲染），推理速度快；论文开源代码与预训练模型；实验包含消融研究证实scene-token与diffusion decoder的必要性；未来可探索其与机器人抓取、AR空间锚定等下游任务的结合。
相关研究

NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-View Stereo (NeurIPS 2021); MVSNet: Depth Map Prediction from a Single Image using a Multi-Scale Context Aggregation Network (CVPR 2018); Point-MVSNet: Unsupervised Point Cloud Reconstruction from Multiple Images (ICCV 2021); GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields (CVPR 2022); Stable Diffusion for 3D: Score Distillation Sampling in Latent Space (SIGGRAPH 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问