- 简介3D占据预测(Occ)是自动驾驶领域中一个迅速崛起的具有挑战性的感知任务,它将驾驶场景表示为具有语义的均匀分割的3D体素网格。与3D物体检测相比,网格感知具有更好地识别不规则形状、未知类别或部分遮挡的普通对象的优势。然而,现有的3D占据网络(occnets)既计算量大又需要大量标签。在模型复杂性方面,occnets通常由体素级别上的重型Conv3D模块或变压器组成。在标签注释要求方面,occnets使用大规模昂贵的密集体素标签进行监督。由于网络参数过多和标签注释要求,导致模型和数据效率低下,严重阻碍了occnets的现场部署。本文提出了一种高效的3D占据网络(EFFOcc),旨在实现最小的网络复杂度和标签需求,同时实现最先进的准确性。EFFOcc仅使用简单的2D运算符,并在多个大规模基准测试中将Occ的准确性提高到最先进水平:Occ3D-nuScenes,Occ3D-Waymo和OpenOccupancy-nuScenes。在Occ3D-nuScenes基准测试中,EFFOcc仅有18.4M参数,并在平均IoU(mIoU)方面达到50.46,据我们所知,与相关的occnets相比,它是具有最小参数的occnet。此外,我们提出了一种两阶段主动学习策略,以减少标记数据的要求。使用6%标记体素训练的Active EFFOcc达到了47.19 mIoU,即95.7%的完全监督性能。所提出的EFFOcc还支持借助区域分解蒸馏改进的仅视觉占据预测。代码和演示视频将在https://github.com/synsin0/EFFOcc上提供。
- 图表
- 解决问题论文旨在解决3D occupancy prediction中存在的计算复杂度高和标签需求量大的问题,以及降低模型复杂度和标签需求量的同时实现最先进的准确性。
- 关键思路EFFOcc是一种高效的3D occupancy网络,仅使用简单的2D运算符,实现了最先进的准确性,并支持改进的仅视觉占用预测。
- 其它亮点EFFOcc在多个大型基准测试中实现了最先进的准确性,具有最小的参数数量。论文还提出了一种两阶段主动学习策略,以减少标记数据的要求。代码和演示视频可在https://github.com/synsin0/EFFOcc上找到。
- 在最近的研究中,还有一些相关的研究,如VoxelNet和PointPillars等。
沙发等你来抢
去评论
评论
沙发等你来抢