DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features

2024年06月17日
  • 简介
    我们提出了DistillNeRF,这是一个自监督学习框架,解决了自动驾驶中从有限的2D观测理解3D环境的挑战。我们的方法是一个通用的前馈模型,可以从稀疏的单帧多视角相机输入中预测出丰富的神经场景表示,并通过可微分渲染进行自监督训练,以重建RGB、深度或特征图像。我们的第一个见解是利用每个场景优化的神经辐射场(NeRFs),通过生成密集的深度和虚拟相机目标进行训练,从而帮助我们的模型从稀疏的非重叠图像输入中学习3D几何。其次,为了学习一个语义丰富的3D表示,我们提出了从预训练的2D基础模型(如CLIP或DINOv2)中提取特征的方法,从而实现各种下游任务,而无需昂贵的3D人类注释。为了利用这两个见解,我们引入了一种新的模型架构,具有两阶段的lift-splat-shoot编码器和参数化的稀疏分层体素表示。NuScenes数据集上的实验结果表明,DistillNeRF在场景重建、新视角合成和深度估计等方面显著优于现有的可比自监督方法;并且它允许通过提取基础模型特征进行具有竞争力的零样本3D语义占用预测,以及开放世界场景理解。演示和代码将在https://distillnerf.github.io/上提供。
  • 图表
  • 解决问题
    DistillNeRF论文试图解决从有限的2D观察中理解3D环境的问题,以及在自动驾驶中使用这种方法。这是否是一个新问题?
  • 关键思路
    DistillNeRF是一个自监督学习框架,通过可微分渲染将稀疏的、单帧多视角相机输入转换为丰富的神经场景表示,从而预测3D环境。DistillNeRF利用场景优化的神经辐射场(NeRF)生成密集深度和虚拟相机目标进行训练,从而帮助模型从稀疏的非重叠图像输入中学习3D几何形状。为了学习语义丰富的3D表示,DistillNeRF提出了从预训练的2D基础模型(如CLIP或DINOv2)中提取特征的方法,从而使各种下游任务不需要昂贵的3D人类注释。
  • 其它亮点
    DistillNeRF论文中的实验结果表明,与现有的可比较的自监督方法相比,DistillNeRF在场景重建、新视角合成和深度估计方面显著优于现有方法;DistillNeRF允许竞争性的零样本3D语义占用预测,以及通过提取基础模型特征进行开放世界场景理解。论文提供了演示和代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:NeRF、DIB-R、GRAF、PIFu、DeepSDF等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论