RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection

2024年03月25日
  • 简介
    三维物体检测是自动驾驶的关键任务之一。为了降低成本,提出了使用低成本多视角相机替代昂贵的激光雷达传感器进行三维物体检测的方案。但是,仅仅依靠相机难以实现高精度和鲁棒性的三维物体检测。解决这个问题的有效方法是将多视角相机与经济实惠的毫米波雷达传感器相结合,实现更可靠的多模态三维物体检测。本文介绍了一种基于雷达-相机融合的三维物体检测方法RCBEVDet,应用于鸟瞰图(BEV)中。具体而言,我们首先设计了RadarBEVNet用于雷达BEV特征提取。RadarBEVNet由双流雷达主干和Radar Cross-Section(RCS)感知BEV编码器组成。在双流雷达主干中,提出了基于点的编码器和基于变换器的编码器来提取雷达特征,并引入注入和提取模块来促进两个编码器之间的通信。RCS感知BEV编码器将RCS作为物体大小的先验信息,在BEV中散射点特征。此外,我们提出了交叉注意力多层融合模块,采用可变形注意力机制自动对齐来自雷达和相机的多模态BEV特征,然后通过通道和空间融合层融合特征。实验结果表明,RCBEVDet在nuScenes和view-of-delft(VoD)三维物体检测基准上取得了新的雷达-相机融合结果的最新成果。此外,RCBEVDet在21~28 FPS的更快推理速度下,实现了比所有实时相机-雷达三维物体检测器更好的三维检测结果。源代码将在https://github.com/VDIGPKU/RCBEVDet上发布。
  • 图表
  • 解决问题
    RCBEVDet试图通过融合毫米波雷达和多视角相机来提高三维物体检测的准确性和鲁棒性,以解决低成本多视角相机难以实现高度精确和鲁棒性的问题。
  • 关键思路
    RCBEVDet的关键思路是在鸟瞰视图(BEV)中设计了RadarBEVNet用于雷达BEV特征提取,并提出了Cross-Attention Multi-layer Fusion模块来自动对齐来自雷达和相机的多模态BEV特征,并使用通道和空间融合层进行特征融合。
  • 其它亮点
    论文使用了nuScenes和view-of-delft(VoD)数据集进行实验,并在雷达相机融合的三维物体检测方面取得了新的最优结果。论文开源了代码,并提出了值得深入研究的交叉关注多层融合模块。
  • 相关研究
    该领域的相关研究包括:1. F-ConvNet:一种基于3D卷积神经网络的三维物体检测方法;2. Stereo R-CNN:一种基于立体视觉的三维物体检测方法;3. PointPillars:一种基于点云的三维物体检测方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论