FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D Bird's-Eye View and Perspective View

2024年03月05日
  • 简介
    在自动驾驶中,三维占据预测输出体素级别的状态和语义标签,相比传统的感知任务(如三维物体检测和鸟瞰图语义分割)更全面地理解三维场景。近期的研究者广泛探索了该任务的各个方面,包括视角变换技术、真值标签生成和复杂的网络设计,旨在实现更优异的性能。然而,对于在自动驾驶车辆上运行而言至关重要的推理速度却被忽视了。因此,提出了一种名为FastOcc的新方法。通过仔细分析四个部分(包括输入图像分辨率、图像主干、视角变换和占据预测头)的网络效果和延迟,发现占据预测头在保持准确性的同时具有显著的加速模型的潜力。为了改进这个组件,将耗时的三维卷积网络替换为一种新颖的残差式架构,其中特征主要由轻量级的二维鸟瞰图卷积网络消化,并通过将原始图像特征插值得到的三维体素特征进行补偿。在Occ3D-nuScenes基准测试上的实验表明,我们的FastOcc在快速推理速度下实现了最先进的结果。
  • 图表
  • 解决问题
    论文旨在提高自动驾驶中的3D占用预测模型的推理速度,同时保持其准确性。
  • 关键思路
    通过对网络效应和延迟的分析,发现占用预测头对于加速模型具有潜力。因此,使用轻量级2D BEV卷积网络和从原始图像特征插值的3D体素特征相结合的新型残差架构替换了耗时的3D卷积网络。
  • 其它亮点
    论文提出的FastOcc方法在Occ3D-nuScenes基准测试中取得了最先进的结果,并具有快速的推理速度。实验使用了nuScenes数据集,并开源了代码。
  • 相关研究
    与此相关的最近研究包括:'VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection'和'PointPillars: Fast Encoders for Object Detection from Point Clouds'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论