SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

简介

本文研究了稀疏三维检测器，因为基于查询的模式可以在不显式构建密集BEV特征的情况下实现低延迟，因此这些检测器受到了重视。然而，这些检测器的性能比密集检测器差。本文发现弥合性能差距的关键是增强两种模态的丰富表示的意识。因此，本文提出了一种高性能的完全稀疏检测器SparseLIF，用于端到端多模态三维物体检测。SparseLIF包含三个关键设计，分别是：（1）透视感知查询生成（PAQG），用于生成具有透视先验的高质量三维查询；（2）RoI感知采样（RIAS），通过从每个模态中采样RoI特征来进一步优化先验查询；（3）不确定性感知融合（UAF），精确量化每种传感器模态的不确定性，并自适应地进行最终的多模态融合，从而实现对传感器噪声的很好的鲁棒性。截至提交时（2024/03/08），SparseLIF在nuScenes数据集上实现了最先进的性能，在验证集和测试基准测试中均排名第一，优于所有最先进的3D物体检测器。本文的源代码将在接受后发布。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本文旨在解决稀疏3D检测器在性能上劣于密集检测器的问题，提出一种基于多模态的高性能稀疏检测器。

关键思路

文章提出了三个关键设计：透视感知查询生成（PAQG）、RoI感知采样（RIAS）和不确定性感知融合（UAF），通过增强两种模态的丰富表示意识来弥补性能差距。

其它亮点

实验表明，SparseLIF在nuScenes数据集上的性能优于当前所有3D目标检测器，排名第一。作者将开源代码。

SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

提问交流

提问交流