BEVSpread: Spread Voxel Pooling for Bird's-Eye-View Representation in Vision-based Roadside 3D Object Detection

2024年06月13日
  • 简介
    这篇文章介绍了一种基于视觉的道路三维物体检测方法,这种方法在自动驾驶领域引起了越来越多的关注,因为它具有减少盲区和扩大感知范围的固有优势。之前的工作主要集中在准确估计2D到3D的深度或高度,但忽略了体素池化过程中的位置近似误差。基于这一洞见,作者提出了一种新的体素池化策略,称为BEVSpread,以减少这种误差。具体来说,BEVSpread将每个视锥点视为源,并使用自适应权重将图像特征传播到周围的BEV网格中,而不是将包含在视锥体点中的图像特征带到单个BEV网格中。为了实现更好的传播性能,设计了一个特定的权重函数,根据距离和深度动态控制权重的衰减速度。借助定制的CUDA并行加速,BEVSpread实现了与原始体素池化相当的推断时间。在两个大规模道路基准测试中进行了广泛的实验,结果表明,作为插件,BEVSpread可以显著提高现有基于视锥体的BEV方法的性能,车辆、行人和骑车人的AP大幅提高了(1.12,5.26,3.01)。
  • 图表
  • 解决问题
    本论文旨在解决路边3D物体检测中的位置近似误差问题,提出了一种新的体素池化策略BEVSpread。
  • 关键思路
    BEVSpread将每个截锥点视为源,并使用自适应权重将图像特征传播到周围的BEV网格中,以减少体素池化过程中的位置近似误差。
  • 其它亮点
    BEVSpread作为插件可以显著提高现有基于截锥体的BEV方法的性能,比现有方法提高了(1.12,5.26,3.01)AP。实验使用了两个大规模的路边数据集,使用了自定义的CUDA并行加速,具有可比性的推理时间。
  • 相关研究
    近期的相关研究包括:Frustum PointNets for 3D Object Detection from RGB-D Data、AVOD: Aggregate View Object Detection、VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论