OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views

Francis Engelmann,
Fabian Manhardt,
Michael Niemeyer,
Keisuke Tateno,
Marc Pollefeys,
Federico Tombari
ICLR 2024
226
热度
CV
2024年04月04日
  • 简介
    大型视觉语言模型(VLMs),如CLIP,能够以零样本的方式从图像中分割任意概念,实现开放集图像分割。这超越了传统的封闭集假设,即模型只能从预定义的训练集中分割类别。最近,文献中出现了关于在3D场景中进行开放集分割的首个研究。这些方法受到处理点云或多边形网格的封闭集3D卷积方法的影响。然而,这些3D场景表示与视觉语言模型的基于图像的性质不太匹配。事实上,点云和3D网格通常比图像具有更低的分辨率,重建的3D场景几何可能无法很好地投影到用于计算像素对齐CLIP特征的底层2D图像序列上。为了解决这些挑战,我们提出了OpenNeRF,它自然地在姿态图像上运行,并直接在NeRF中编码VLM特征。这与LERF的精神类似,但我们的工作表明,使用像素级的VLM特征(而不是全局CLIP特征)会导致整体架构更简单,无需额外的DINO正则化。我们的OpenNeRF进一步利用了NeRF渲染新视图和从初始姿态图像中未被观察到的区域提取开放集VLM特征的能力。在Replica数据集上进行3D点云分割,OpenNeRF的表现优于最近的开放词汇方法,如LERF和OpenScene,至少高出4.9个mIoU。
  • 图表
  • 解决问题
    论文提出了OpenNeRF来解决3D场景中的开放式图像分割问题,这个问题是当前研究领域中的新问题。
  • 关键思路
    OpenNeRF将VLM特征直接编码到NeRF中,使用像素级VLM特征,不需要额外的DINO正则化,利用NeRF的渲染新视图和提取开放式VLM特征的能力来解决3D场景中的开放式图像分割问题。
  • 其它亮点
    论文使用Replica数据集进行实验,并将OpenNeRF与LERF和OpenScene进行比较。实验结果表明,OpenNeRF在3D点云分割方面的性能优于LERF和OpenScene,至少提高了4.9 mIoU。
  • 相关研究
    近期的相关研究包括LERF和OpenScene。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论