- 简介神经场在计算机视觉和机器人领域表现出色,因为它们能够理解三维视觉世界,比如推断语义、几何和动态信息。鉴于神经场在从二维图像中密集表示三维场景方面的能力,我们提出了一个问题:我们能否扩展它们的自监督预训练,特别是使用遮罩自编码器,从姿态RGB图像中生成有效的三维表示。由于将Transformer扩展到新的数据模态取得了惊人的成功,我们使用标准的三维视觉Transformer来适应NeRF的独特公式。我们利用NeRF的体积网格作为Transformer的密集输入,与其他三维表示(如点云)相比,其中信息密度可能不均匀且表示不规则,形成对比。由于将遮罩自编码器应用于NeRF这样的隐式表示的困难,我们选择提取显式表示,通过使用相机轨迹进行采样来规范化跨域场景。我们的目标是通过遮盖NeRF的亮度和密度网格中的随机补丁,并使用标准的三维Swin Transformer来重建遮盖的补丁,从而使模型能够学习完整场景的语义和空间结构。我们在提出的姿态RGB数据上进行了规模化的预训练,总计超过160万张图像。预训练后,编码器用于有效的三维迁移学习。我们的新型自监督预训练NeRF-MAE扩展性极佳,在各种具有挑战性的三维任务上提高了性能。利用未标记的姿态二维数据进行预训练,NeRF-MAE在Front3D和ScanNet数据集上的绝对性能提高了20% AP50和8% AP25,显著优于自监督三维预训练和NeRF场景理解基线的表现。
-
- 图表
- 解决问题本论文旨在探究利用神经场(Neural fields)进行自监督预训练,生成有效的三维场景表示,以解决三维计算机视觉和机器人学中的问题。
- 关键思路论文提出了一种名为NeRF-MAE的自监督预训练方法,利用遮挡自编码器(Masked Autoencoders)和三维视觉Transformer进行训练,可以有效地生成三维场景表示,并在多项三维任务中得到显著提升。
- 其它亮点论文使用了超过160万张RGB图像的数据集进行预训练,并在Front3D和ScanNet数据集上进行了实验,取得了20% AP50和8% AP25的绝对性能提升。此外,论文还提出了使用相机轨迹进行采样的方法,使得模型可以学习不同领域场景的语义和空间结构。
- 在相关研究方面,最近的一些工作包括《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》和《DALL-E: Creating Images from Text》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流