OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving

2024年04月23日
  • 简介
    现有的3D语义占据预测解决方案通常将任务视为一次性的3D体素分割感知问题。这些判别式方法专注于学习输入和占据地图之间的映射,缺乏逐步细化占据地图和合理场景想象能力以完成某些局部区域的能力。在本文中,我们介绍了OccGen,一种简单而强大的生成感知模型,用于3D语义占据预测任务。OccGen采用“噪声到占据”的生成范式,通过预测和消除来自随机高斯分布的噪声,逐步推断和细化占据地图。OccGen由两个主要组件组成:一个能够处理多模态输入的条件编码器,以及一个应用扩散去噪的渐进式细化解码器,使用多模态特征作为条件。这种生成管道的一个关键见解是,扩散去噪过程自然能够模拟密集的3D占据地图的粗到细的细化过程,从而产生更详细的预测。对几个占据基准的广泛实验证明了所提出方法相对于最先进的方法的有效性。例如,在多模态、仅LiDAR和仅相机设置下,OccGen分别将nuScenes-Occupancy数据集的mIoU相对提高了9.5%、6.3%和13.3%。此外,作为一种生成感知模型,OccGen展示了判别模型无法实现的理想属性,例如在多步预测的同时提供不确定性估计。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决3D语义占用预测的渐进式细化问题,提出了一个简单而强大的生成感知模型OccGen。
  • 关键思路
    OccGen采用“噪声到占用”的生成范式,通过预测和消除来自随机高斯分布的噪声,逐步推断和精细化占用地图。OccGen由两个主要组件组成:能够处理多模态输入的条件编码器和应用扩散去噪的渐进式细化解码器。扩散去噪过程自然能够建模密集的3D占用地图的粗到细的细化过程,从而产生更详细的预测。
  • 其它亮点
    论文在多个占用基准测试上进行了广泛的实验,相对于最先进的方法,OccGen在nuScenes-Occupancy数据集上分别提高了9.5%,6.3%和13.3%,在多模态,仅LiDAR和仅相机设置下。此外,作为生成感知模型,OccGen展现出较为理想的性质,如在多步预测的同时提供不确定性估计。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《3D半监督语义分割》、《3D语义分割的几何感知》、《3D点云语义分割的多分辨率分层方法》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问