Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution

简介

在自动驾驶中，实时理解自我车辆周围的三维环境至关重要。一种压缩表示场景的方法是通过三维语义占据图来编码几何距离和语义对象信息。最先进的三维建图方法利用跨注意力机制的变压器将二维视觉中心相机特征提升到三维领域。然而，这些方法在推理过程中面临着计算需求高的显著挑战，这一限制在自动驾驶中尤为棘手，因为GPU资源必须与定位和规划等其他任务共享。本文介绍了一种方法，该方法从前视2D相机图像和LiDAR扫描中提取特征，然后采用稀疏卷积网络（Minkowski Engine）进行三维语义占据预测。鉴于自动驾驶场景中的室外场景本质上是稀疏的，因此利用稀疏卷积是特别适合的。通过共同解决稀疏场景的三维场景完成和三维语义分割问题，我们提供了一个更有效的学习框架，适用于自动驾驶中的实时应用。我们还在nuScenes数据集上展示了竞争性的准确性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决自动驾驶中的实时3D场景理解问题，提出一种基于2D相机图像和LiDAR扫描的稀疏卷积网络方法，以更高效的方式进行3D语义占用预测。
关键思路

论文的关键思路是通过稀疏卷积网络对前视2D相机图像和LiDAR扫描进行特征提取和3D语义占用预测，以更高效地进行实时3D场景理解。
其它亮点

论文使用了Minkowski Engine进行稀疏卷积，提出了一种联合解决稀疏场景的3D场景完成和3D语义分割的方法，实验结果在nuScenes数据集上表现出竞争力，并提供了开源代码。
相关研究

相关研究包括使用transformers的3D建图方法，以及其他基于2D图像和LiDAR数据的3D场景理解方法，如PointRCNN和SalsaNext。

Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution

提问交流

提问交流