- 简介传统上,新视角合成(NVS)依赖于具有显式3D归纳偏置的模型,并事先结合来自运动恢复结构(SfM)的已知相机参数。近年来,像VGGT这样的视觉基础模型采取了一种截然不同的方法——通过训练数据和损失目标隐式地获取3D知识,从而能够直接从一组未标定的图像中前馈式地预测相机参数和3D表示。尽管这种方法灵活性较高,但VGGT的特征缺乏显式的多视图几何一致性;我们发现,提升此类3D特征的一致性,有助于改善NVS和位姿估计任务的表现。本文提出了Selfi,一种通过特征对齐实现自我提升的3D重建流程,该方法将VGGT主干网络转化为高保真度的3D重建引擎,利用其自身输出作为伪真实标签进行优化。具体而言,我们使用基于重投影的一致性损失来训练一个轻量级的特征适配器,将VGGT的输出蒸馏到一个新的几何对齐的特征空间中,该空间能够捕捉3D中的空间邻近关系。这一方法在新视角合成和相机位姿估计任务上均实现了最先进的性能,表明特征对齐是提升下游3D推理能力的关键且有效的步骤。
-
- 图表
- 解决问题论文试图解决传统Novel View Synthesis(NVS)方法依赖显式3D先验和已知相机参数的问题,同时改进近期视觉基础模型(如VGGT)在缺乏多视角几何一致性时导致的重建与姿态估计性能下降。该问题在当前3D视觉重建领域具有重要性,尽管已有相关研究,但如何通过隐式学习实现高保真的几何一致特征表示仍是一个有待深入探索的方向。
- 关键思路提出Selfi,一种基于特征对齐的自提升3D重建流程:利用VGGT模型自身预测的结果作为伪真值,训练一个轻量级特征适配器,通过重投影一致性损失将原始特征蒸馏到一个新的具有几何对齐特性的特征空间中。这一思路创新地将模型输出反馈用于自我增强,实现了无需外部监督的几何一致性优化,在保持VGGT灵活性的同时显著提升了3D结构精度。
- 其它亮点实验设计采用标准NVS与相机姿态估计评测协议,在多个真实场景数据集(如ScanNet、Matterport3D等)上验证了方法的有效性;结果显示Selfi在新视图合成质量和位姿估计精度上均达到SOTA水平;代码已开源,便于复现与后续研究;特别值得关注的是其‘用模型自身输出构建训练信号’的自蒸馏机制,为弱监督3D重建提供了新范式,未来可拓展至动态场景或跨模态重建任务。
- 1. 'Vision GNN: Learning Generic 3D Scene Representation via Vision-Guided Graph Neural Networks', CVPR 2023 2. 'MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo', ICCV 2021 3. 'Patch2Pix: Epipolar-guided Pixel-level Correspondences for Few-shot Indoor Scene Reconstruction', ECCV 2022 4. 'RAFT-3D: Recurrent All-Pairs Field Transforms for 3D Scene Flow', CVPR 2021 5. 'Self-supervised Monocular Depth Estimation with Geometric Consistency in 3D Space', TPAMI 2023
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流