ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection

简介

在3D物体检测任务领域中，将来自激光雷达和相机传感器的异构特征融合到统一的鸟瞰图表示中是一种广泛采用的范例。然而，现有方法常常受到传感器校准不精确的影响，导致激光雷达-相机鸟瞰图融合中的特征错位。此外，这种不准确性会导致相机分支的深度估计误差，最终导致激光雷达和相机鸟瞰图特征之间的错位。在本文中，我们提出了一种新颖的ContrastAlign方法，利用对比学习增强异构模态的对齐性，从而提高融合过程的鲁棒性。具体而言，我们的方法包括L-Instance模块，直接输出激光雷达BEV特征内的激光雷达实例特征。然后，我们引入C-Instance模块，通过对相机BEV特征进行感兴趣区域池化，预测相机实例特征。我们提出了InstanceFusion模块，利用对比学习在异构模态之间生成相似的实例特征。然后，我们使用图匹配来计算相邻相机实例特征和相似实例特征之间的相似度，以完成实例特征的对齐。我们的方法在nuScenes验证集上实现了最先进的性能，mAP达到70.3％，比BEVFusion高出1.8％。重要的是，在存在错位噪声的情况下，我们的方法比BEVFusion高出7.3％。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文旨在解决LiDAR和相机传感器之间的特征不对齐问题，从而提高3D目标检测的准确性。

关键思路

通过引入对比学习，提出了ContrastAlign方法，该方法包括L-Instance模块、C-Instance模块和InstanceFusion模块，用于直接输出LiDAR实例特征、预测相机实例特征和对齐异构模态的实例特征。

其它亮点

论文在nuScenes验证集上取得了70.3%的mAP，比BEVFusion高出1.8%。在存在对齐误差的情况下，ContrastAlign的性能比BEVFusion高出7.3%。

ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection

提问交流

提问交流