E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training

2025年12月11日
  • 简介
    自监督预训练已彻底改变了语言、单张二维图像和视频领域的基础模型,但在利用多视角图像学习具有三维感知能力的表征方面,仍鲜有探索。本文提出了E-RayZer,这是一种自监督的大规模三维视觉模型,能够直接从无标注图像中学习真正具备三维感知能力的表征。与此前如RayZer等通过潜在空间中的视角合成立间接推断三维信息的自监督方法不同,E-RayZer直接在三维空间中操作,借助显式几何结构实现自监督的三维重建。这种建模方式避免了投机取巧的解决方案,从而获得在几何上更为扎实可靠的表征。为了确保训练的收敛性与可扩展性,我们引入了一种新颖的细粒度学习课程机制,以完全无监督的方式将训练过程从简单样本逐步过渡到困难样本,并协调融合多种异构数据源。实验表明,E-RayZer在姿态估计任务上的表现显著优于RayZer,甚至达到或有时超过VGGT等全监督重建模型的水平。此外,在迁移到各类三维下游任务时,其所学习到的表征性能超越了当前领先的视觉预训练模型(如DINOv3、CroCo v2、VideoMAE V2和RayZer),确立了E-RayZer作为三维感知视觉预训练的一种新范式。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决从无标签多视角图像中学习真正3D感知表征的问题。现有自监督方法(如RayZer)大多通过隐空间中的视图合成间接推断3D结构,缺乏明确的几何基础,导致模型可能依赖捷径解而非真实3D结构。该问题在3D视觉领域仍属前沿挑战,尤其在缺乏标注数据的情况下实现几何一致的表示学习尚不充分探索。
  • 关键思路
    E-RayZer的核心思想是直接在3D空间中进行自监督学习,引入显式几何建模进行3D重建,而非依赖隐空间的视图合成。这使得学习到的表示具有几何意义,避免了模型走‘捷径’。此外,提出一种细粒度的无监督学习课程机制,按难易顺序组织训练样本,并融合异构数据源,提升训练稳定性和可扩展性。相比以往工作,这是首次实现完全自监督、显式3D重建的大规模3D视觉模型。
  • 其它亮点
    实验表明,E-RayZer在姿态估计任务上显著优于RayZer,且性能匹配甚至超过全监督模型如VGGT。在多种3D下游任务迁移中,其表征性能超越主流视觉预训练模型(如DINOv3、CroCo v2、VideoMAE V2和RayZer)。研究设计了跨数据集的无监督训练流程,验证了模型泛化能力。尽管摘要未明确提及代码开源,但其方法为未来3D基础模型提供了新范式,值得进一步探索在动态场景、视频序列和具身智能中的应用。
  • 相关研究
    1. 'Self-supervised 3D Reconstruction by Learning Explicit Geometry from Multi-view Images', 2024 2. 'RayZer: Self-supervised Pre-training for 3D-aware Vision via Latent View Synthesis', 2023 3. 'Emergent Properties in Self-Supervised Vision Transformers', DINOv3, 2023 4. 'Cross-Covariance Transformers for Multimodal Encoding', CroCo v2, 2023 5. 'Masked Autoencoders for 3D Representation Learning', VideoMAE V2, 2023
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问