- 简介最近,基于视觉的自动驾驶领域中,三维占据估计任务已成为一个重要的挑战。然而,大多数现有的基于相机的方法依赖于昂贵的三维体素标签或激光雷达扫描进行训练,从而限制了它们的实用性和可扩展性。此外,大多数方法都与它们可以检测的预定义类别相关联。在这项工作中,我们提出了一种新颖的开放词汇占据估计方法,称为LangOcc,它仅通过相机图像进行训练,并可以通过视觉语言对齐检测任意语义。具体来说,我们通过可微体积渲染将强视觉语言对齐编码器CLIP的知识提炼到三维占据模型中。我们的模型仅使用图像在三维体素网格中估计视觉语言对齐特征。它通过将我们的估计渲染回2D空间进行自我监督训练,从而可以计算出地面真实特征。这种训练机制自动监督场景几何,允许一种简单而强大的训练方法,无需任何显式几何监督。LangOcc在开放词汇占据方面表现出比激光雷达监督竞争对手更好的性能,仅依靠基于视觉的训练。我们还在Occ3D-nuScenes数据集上实现了自我监督语义占据估计的最新结果,尽管没有被限制在特定的类别集上,从而证明了我们提出的视觉语言训练的有效性。
- 图表
- 解决问题LangOcc: Open Vocabulary Occupancy Estimation via Vision-Language Alignment
- 关键思路使用CLIP模型中的视觉-语言对齐知识,通过可微分体积渲染将其蒸馏到3D占用模型中,从而实现基于图像的开放词汇占用估计。
- 其它亮点LangOcc模型仅使用图像进行训练,可以检测任意语义。通过自监督训练机制,自动监督场景几何,无需显式几何监督。在Occ3D-nuScenes数据集上实现了自监督语义占用估计的最新结果。
- 与现有的基于相机的方法相比,LangOcc模型不需要昂贵的3D体素标签或LiDAR扫描进行训练,也不受限于预定义的类别。
沙发等你来抢
去评论
评论
沙发等你来抢