PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction

解决问题:这篇论文旨在解决自动驾驶中的语义分割问题,即预测所关注的3D空间中每个体素的语义占用情况。现有的基于2D投影的方法在密集预测空间方面存在不足,因为它们只能描述3D场景的一个子空间。因此,论文提出了一种圆柱三透视图来有效地、全面地表示点云,并提出了一个PointOcc模型来高效地处理它们。

关键思路:论文的关键思路是使用圆柱三透视图来对点云进行更细粒度的建模,并采用空间组池化来保持投影过程中的结构细节,同时采用2D骨干网络来高效地处理每个TPV平面。最终,通过聚合每个点在处理过的每个TPV平面上投影的特征,获得每个点的特征,无需任何后处理。相对于当前领域的研究,论文的思路具有创新性,可以更全面地表示点云,并在速度上有很大提升。

其他亮点:论文的实验使用了LiDAR点云数据,并在3D占用预测和LiDAR分割基准测试上进行了广泛的实验。实验结果表明,PointOcc在速度上显著快于其他方法,并在OpenOccupancy基准测试中显著优于所有其他方法,包括多模态方法。论文代码已经开源,可以在https://github.com/wzzheng/PointOcc上获得。这项工作值得进一步深入研究,特别是在其他应用领域中的应用。

相关研究:近期的相关研究包括:

  1. "VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection",作者为Y. Zhou等人,发表在CVPR 2018上。
  2. "PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud",作者为S. Shi等人,发表在CVPR 2019上。
  3. "PointPillars: Fast Encoders for Object Detection from Point Clouds",作者为A. Lang等人,发表在CVPR 2019上。

论文摘要:本文介绍了一种用于点云三维语义占据预测的柱面三透视图方法和PointOcc模型。自动驾驶中的语义分割已经从稀疏点分割发展到密集体素分割,目标是预测所关注的三维空间中每个体素的语义占据。预测空间的密集性使得现有的高效二维投影方法(如鸟瞰图、距离视图等)无效,因为它们只能描述三维场景的一个子空间。为了解决这个问题,作者提出了柱面三透视图来有效全面地表示点云,并提出了PointOcc模型来高效处理它们。考虑到激光雷达点云的距离分布,作者在柱面坐标系中构建了三透视图以更细粒度地建模近处区域。他们采用空间组池化来在投影过程中保持结构细节,并采用二维骨干网络来高效处理每个TPV平面。最后,他们通过聚合点在每个处理的TPV平面上的投影特征来获取每个点的特征,无需进行任何后处理。在三维占据预测和激光雷达分割基准测试中的广泛实验表明,提出的PointOcc在更快的速度下实现了最先进的性能。尽管仅使用激光雷达,PointOcc在OpenOccupancy基准测试中显著优于所有其他方法,包括多模态方法。源代码:https://github.com/wzzheng/PointOcc。

内容中包含的图片若涉及版权问题,请及时与我们联系删除