OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views

简介

大型视觉语言模型（VLMs），如CLIP，能够以零样本的方式从图像中分割任意概念，实现开放集图像分割。这超越了传统的封闭集假设，即模型只能从预定义的训练集中分割类别。最近，文献中出现了关于在3D场景中进行开放集分割的首个研究。这些方法受到处理点云或多边形网格的封闭集3D卷积方法的影响。然而，这些3D场景表示与视觉语言模型的基于图像的性质不太匹配。事实上，点云和3D网格通常比图像具有更低的分辨率，重建的3D场景几何可能无法很好地投影到用于计算像素对齐CLIP特征的底层2D图像序列上。为了解决这些挑战，我们提出了OpenNeRF，它自然地在姿态图像上运行，并直接在NeRF中编码VLM特征。这与LERF的精神类似，但我们的工作表明，使用像素级的VLM特征（而不是全局CLIP特征）会导致整体架构更简单，无需额外的DINO正则化。我们的OpenNeRF进一步利用了NeRF渲染新视图和从初始姿态图像中未被观察到的区域提取开放集VLM特征的能力。在Replica数据集上进行3D点云分割，OpenNeRF的表现优于最近的开放词汇方法，如LERF和OpenScene，至少高出4.9个mIoU。

图表

解决问题

论文提出了OpenNeRF来解决3D场景中的开放式图像分割问题，这个问题是当前研究领域中的新问题。

关键思路

OpenNeRF将VLM特征直接编码到NeRF中，使用像素级VLM特征，不需要额外的DINO正则化，利用NeRF的渲染新视图和提取开放式VLM特征的能力来解决3D场景中的开放式图像分割问题。

其它亮点

论文使用Replica数据集进行实验，并将OpenNeRF与LERF和OpenScene进行比较。实验结果表明，OpenNeRF在3D点云分割方面的性能优于LERF和OpenScene，至少提高了4.9 mIoU。

OpenNeRF: Open Set 3D Neural Scene Segmentation with Pixel-Wise Features and Rendered Novel Views

评论