ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection

简介

在3D物体检测任务领域中，将来自LiDAR和相机传感器的异构特征融合成统一的鸟瞰图（BEV）表示是一种广泛采用的范例。然而，现有的方法常常受到传感器校准不精确的影响，导致LiDAR-相机BEV融合中的特征错位。此外，这种不准确性会导致相机分支的深度估计误差，最终导致LiDAR和相机BEV特征之间的不对齐。在这项工作中，我们提出了一种新颖的ContrastAlign方法，利用对比学习增强异构模态的对齐性，从而提高融合过程的鲁棒性。具体而言，我们的方法包括L-Instance模块，该模块直接在LiDAR BEV特征中输出LiDAR实例特征。然后，我们引入C-Instance模块，通过对相机BEV特征进行RoI（感兴趣区域）池化来预测相机实例特征。我们提出了InstanceFusion模块，利用对比学习在异构模态之间生成相似的实例特征。然后，我们使用图匹配来计算相邻相机实例特征和相似实例特征之间的相似度，以完成实例特征的对齐。我们的方法实现了最先进的性能，mAP为70.3％，在nuScenes验证集上超过BEVFusion 1.8％。重要的是，我们的方法在存在错位噪声的情况下比BEVFusion表现优异，提高了7.3％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文试图解决什么问题，或者验证什么假设？这是否是一个新问题？
关键思路

关键思路：论文中解决问题的方案关键思路是什么？相比当前这个领域的研究状况，这篇论文的思路有什么新意？
其它亮点

其他亮点：论文提出了ContrastAlign方法，利用对比学习增强异构模态的对齐性，从而提高融合过程的鲁棒性。实验结果表明，该方法在nuScenes验证集上的mAP为70.3%，比BEVFusion高1.8%，在存在对齐噪声的情况下比BEVFusion高7.3%。
相关研究

相关研究：最近在这个领域中，还有哪些相关的研究被进行？能否列举一些相关研究的论文标题？

ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection

提问交流

提问交流