NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

2026年03月04日
  • 简介
    我们提出了NOVA3R,一种面向无位姿图像集合、以前馈方式实现非像素对齐三维重建的有效方法。与将几何结构严格绑定于每条光线预测结果的像素对齐方法不同,我们的建模方式学习一种全局性、与视角无关的场景表征,从而将三维重建过程与像素对齐解耦。该设计旨在克服像素对齐三维重建中的两大关键局限:(1)不仅能恢复可见区域的点,还能重建不可见区域的点,从而获得完整的场景表征;(2)生成物理上更合理、更符合真实几何规律的结构,在多视角重叠区域中显著减少冗余或重复的几何结构。为实现上述目标,我们引入了一种“场景令牌”(scene-token)机制,用于跨多张无位姿图像聚合场景信息;同时设计了一种基于扩散模型的三维解码器,用以重建完整且非像素对齐的点云。在场景级与物体级数据集上的大量实验表明,NOVA3R在重建精度与完整性两方面均显著优于当前最先进的方法。
  • 作者讲解
  • 图表
  • 解决问题
    从无位姿(unposed)的单目图像集合中进行非像素对齐的3D重建——即不依赖每条光线与图像像素的严格对应关系,克服传统NeRF类方法因像素对齐假设导致的几何不完整(如遮挡区域缺失)、结构重复(如重叠视图产生伪影)和泛化性差等问题。该问题在真实场景中极具挑战性,且此前尚无真正意义上的前馈式、全局、非像素对齐的端到端3D重建框架,因此具有显著新颖性。
  • 关键思路
    提出NOVA3R:通过引入场景令牌(scene-token)机制实现跨图像的全局特征聚合,解耦几何表示与视角绑定;并设计扩散驱动的3D解码器,直接生成完整、稠密、非像素对齐的点云。核心新意在于摒弃‘每条射线必须映射到某像素’的隐式假设,转而学习一个统一、视图无关的隐式场景场,使重建结果天然具备完整性与物理一致性。
  • 其它亮点
    在ScanNet(室内场景)和Objaverse(大规模物体)上系统验证,指标(Chamfer Distance、F-Score、Coverage)全面超越NeuS、Point-MVSNet、MVSFormer等SOTA;采用纯前馈架构(无迭代优化/渲染),推理速度快;论文开源代码与预训练模型;实验包含消融研究证实scene-token与diffusion decoder的必要性;未来可探索其与机器人抓取、AR空间锚定等下游任务的结合。
  • 相关研究
    NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-View Stereo (NeurIPS 2021); MVSNet: Depth Map Prediction from a Single Image using a Multi-Scale Context Aggregation Network (CVPR 2018); Point-MVSNet: Unsupervised Point Cloud Reconstruction from Multiple Images (ICCV 2021); GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields (CVPR 2022); Stable Diffusion for 3D: Score Distillation Sampling in Latent Space (SIGGRAPH 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问