- 简介语义占据最近作为3D场景表示的一种主要方法已经得到了显著的关注。然而,大多数现有的基于相机的方法依赖于昂贵的数据集,这些数据集具有精细的3D体素标签或LiDAR扫描进行训练,这限制了它们的实用性和可扩展性,增加了在该领域中需要自我监督方法的需求。此外,大多数方法都与它们可以检测的预定义类别相关联。在这项工作中,我们提出了一种新的开放词汇占据估计方法,称为LangOcc,它仅通过相机图像进行训练,并可以通过视觉语言对齐检测任意语义。特别地,我们通过可微分体积渲染将强视觉语言对齐编码器CLIP的知识蒸馏到3D占据模型中。我们的模型仅使用图像在3D体素网格中估计视觉语言对齐特征。它通过将我们的估计渲染回2D空间进行训练,从而可以计算出地面实况特征。这种训练机制自动监督场景几何,允许直接而强大的训练方法,无需任何明确的几何监督。LangOcc在开放词汇占据方面表现优于仅使用LiDAR监督的竞争对手,仅依赖于基于视觉的训练。我们还在Occ3D-nuScenes数据集上实现了自我监督语义占据估计的最新成果,尽管不限于特定的类别集,从而证明了我们提出的视觉语言训练的有效性。
-
- 图表
- 解决问题本文旨在提出一种自监督学习的方法,通过视觉-语言对齐来实现开放词汇的三维场景表示,从而解决现有基于相机的方法需要昂贵数据集或LiDAR扫描的问题。
- 关键思路本文提出的方法是通过将强视觉-语言对齐编码器CLIP的知识蒸馏到三维占用模型中,使用可微分体积渲染在三维体素网格中估计视觉-语言对齐特征,从而实现仅使用图像进行训练的任意语义检测。
- 其它亮点LangOcc通过自监督学习的方式训练,不需要昂贵的数据集或LiDAR扫描;可以检测任意语义,而不仅仅是预定义的类别;在开放词汇占用估计方面,LangOcc的表现优于LiDAR监督竞争者;在Occ3D-nuScenes数据集上实现了最先进的自监督语义占用估计结果。
- 在这个领域中,最近的相关研究包括基于LiDAR的方法和基于相机的方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流