RayZer: A Self-supervised Large View Synthesis Model

2025年05月01日
  • 简介
    我们提出了 RayZer,这是一种自监督的多视图 3D 视觉模型,在没有任何 3D 监督(例如相机姿态和场景几何)的情况下进行训练,但表现出新兴的 3D 感知能力。具体来说,RayZer 以未对齐且未标定的图像作为输入,恢复相机参数,重建场景表示,并合成新视图。在训练过程中,RayZer 仅依赖其自身预测的相机姿态来渲染目标视图,从而消除了对任何真实相机标注的需求,并使 RayZer 能够通过 2D 图像监督进行训练。RayZer 的新兴 3D 意识归因于两个关键因素:首先,我们设计了一种自监督框架,通过分离相机和场景表示,实现了输入图像的 3D 感知自动编码。其次,我们设计了一种基于变压器的模型,其中唯一的 3D 先验是光线结构,它同时连接了相机、像素和场景。RayZer 在新视图合成任务中的表现与依赖姿态注释的“理想”方法相当,甚至在训练和测试中表现更优。项目地址:https://hwjiang1510.github.io/RayZer/
  • 作者讲解·3
  • 图表
  • 解决问题
    该论文试图解决在没有3D监督(如相机姿态和场景几何)的情况下,实现多视角3D视觉模型的训练问题。具体来说,目标是从未对齐且未标定的2D图像中恢复相机参数、重建场景表示并合成新视图。这是一个具有挑战性的问题,因为大多数现有方法依赖于明确的相机姿态或3D几何信息。
  • 关键思路
    RayZer设计了一种自监督框架,通过解耦相机和场景表示来实现3D感知的自动编码。此外,它引入了一个基于Transformer的模型,其中唯一的3D先验是光线结构,用于同时连接相机、像素和场景。这种方法无需任何地面真实相机标注,仅依靠预测的相机姿态进行渲染,从而显著降低了对3D监督的需求。
  • 其它亮点
    1) RayZer在不使用任何3D监督的情况下,表现可与依赖姿态注释的'oracle'方法相媲美甚至超越;2) 提出了一个新颖的光线结构作为3D先验,结合Transformer架构增强了模型的表达能力;3) 论文提供了开源项目链接(https://hwjiang1510.github.io/RayZer/),便于复现和进一步研究;4) 实验涵盖了多种数据集,并验证了模型在不同场景下的泛化能力。
  • 相关研究
    近期相关研究包括:1) 'NeRF: Neural Radiance Fields' - 使用神经辐射场进行高质量的新视角合成;2) 'MVSNet: Depth Inference for Multi-View Stereo by Training a Neural Network' - 利用深度学习进行多视角立体视觉任务;3) 'PixelNeRF: Radiance Fields from Just a Few Images' - 探索从少量图像生成辐射场的可能性;4) 'Self-Supervised Monocular Depth Estimation with Transformers' - 结合Transformer改进单目深度估计的自监督方法。这些工作大多依赖显式的3D监督或复杂的标注数据,而RayZer则突破了这一限制。
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问