LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering

简介

语义占据最近作为3D场景表示的一种主要方法已经得到了显著的关注。然而，大多数现有的基于相机的方法依赖于昂贵的数据集，这些数据集具有精细的3D体素标签或LiDAR扫描进行训练，这限制了它们的实用性和可扩展性，增加了在该领域中需要自我监督方法的需求。此外，大多数方法都与它们可以检测的预定义类别相关联。在这项工作中，我们提出了一种新的开放词汇占据估计方法，称为LangOcc，它仅通过相机图像进行训练，并可以通过视觉语言对齐检测任意语义。特别地，我们通过可微分体积渲染将强视觉语言对齐编码器CLIP的知识蒸馏到3D占据模型中。我们的模型仅使用图像在3D体素网格中估计视觉语言对齐特征。它通过将我们的估计渲染回2D空间进行训练，从而可以计算出地面实况特征。这种训练机制自动监督场景几何，允许直接而强大的训练方法，无需任何明确的几何监督。LangOcc在开放词汇占据方面表现优于仅使用LiDAR监督的竞争对手，仅依赖于基于视觉的训练。我们还在Occ3D-nuScenes数据集上实现了自我监督语义占据估计的最新成果，尽管不限于特定的类别集，从而证明了我们提出的视觉语言训练的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种自监督学习的方法，通过视觉-语言对齐来实现开放词汇的三维场景表示，从而解决现有基于相机的方法需要昂贵数据集或LiDAR扫描的问题。
关键思路

本文提出的方法是通过将强视觉-语言对齐编码器CLIP的知识蒸馏到三维占用模型中，使用可微分体积渲染在三维体素网格中估计视觉-语言对齐特征，从而实现仅使用图像进行训练的任意语义检测。
其它亮点

LangOcc通过自监督学习的方式训练，不需要昂贵的数据集或LiDAR扫描；可以检测任意语义，而不仅仅是预定义的类别；在开放词汇占用估计方面，LangOcc的表现优于LiDAR监督竞争者；在Occ3D-nuScenes数据集上实现了最先进的自监督语义占用估计结果。
相关研究

在这个领域中，最近的相关研究包括基于LiDAR的方法和基于相机的方法。

LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering

提问交流

提问交流