RayZer: A Self-supervised Large View Synthesis Model

向作者提问

NEW

简介

我们提出了 RayZer，这是一种自监督的多视图 3D 视觉模型，在没有任何 3D 监督（例如相机姿态和场景几何）的情况下进行训练，但表现出新兴的 3D 感知能力。具体来说，RayZer 以未对齐且未标定的图像作为输入，恢复相机参数，重建场景表示，并合成新视图。在训练过程中，RayZer 仅依赖其自身预测的相机姿态来渲染目标视图，从而消除了对任何真实相机标注的需求，并使 RayZer 能够通过 2D 图像监督进行训练。RayZer 的新兴 3D 意识归因于两个关键因素：首先，我们设计了一种自监督框架，通过分离相机和场景表示，实现了输入图像的 3D 感知自动编码。其次，我们设计了一种基于变压器的模型，其中唯一的 3D 先验是光线结构，它同时连接了相机、像素和场景。RayZer 在新视图合成任务中的表现与依赖姿态注释的“理想”方法相当，甚至在训练和测试中表现更优。项目地址：https://hwjiang1510.github.io/RayZer/
作者讲解·3
- 讲解视频(1)
- 相关报道(2)
图表
解决问题

该论文试图解决在没有3D监督（如相机姿态和场景几何）的情况下，实现多视角3D视觉模型的训练问题。具体来说，目标是从未对齐且未标定的2D图像中恢复相机参数、重建场景表示并合成新视图。这是一个具有挑战性的问题，因为大多数现有方法依赖于明确的相机姿态或3D几何信息。
关键思路

RayZer设计了一种自监督框架，通过解耦相机和场景表示来实现3D感知的自动编码。此外，它引入了一个基于Transformer的模型，其中唯一的3D先验是光线结构，用于同时连接相机、像素和场景。这种方法无需任何地面真实相机标注，仅依靠预测的相机姿态进行渲染，从而显著降低了对3D监督的需求。
其它亮点

1) RayZer在不使用任何3D监督的情况下，表现可与依赖姿态注释的'oracle'方法相媲美甚至超越；2) 提出了一个新颖的光线结构作为3D先验，结合Transformer架构增强了模型的表达能力；3) 论文提供了开源项目链接（https://hwjiang1510.github.io/RayZer/），便于复现和进一步研究；4) 实验涵盖了多种数据集，并验证了模型在不同场景下的泛化能力。
相关研究

近期相关研究包括：1) 'NeRF: Neural Radiance Fields' - 使用神经辐射场进行高质量的新视角合成；2) 'MVSNet: Depth Inference for Multi-View Stereo by Training a Neural Network' - 利用深度学习进行多视角立体视觉任务；3) 'PixelNeRF: Radiance Fields from Just a Few Images' - 探索从少量图像生成辐射场的可能性；4) 'Self-Supervised Monocular Depth Estimation with Transformers' - 结合Transformer改进单目深度估计的自监督方法。这些工作大多依赖显式的3D监督或复杂的标注数据，而RayZer则突破了这一限制。

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问