- 简介基于 LiDAR 的稀疏三维物体检测由于其计算效率的优势,在自动驾驶应用中扮演着至关重要的角色。现有的方法要么使用单个中心体素的特征作为物体代理,要么将聚合的前景点群视为物体代理。然而,前者缺乏聚合上下文信息的能力,导致物体代理的信息表达不足。后者则依赖于多阶段管道和辅助任务,从而降低了推断速度。为了在完全聚合上下文信息的同时保持稀疏框架的效率,本文提出了 SparseDet,将稀疏查询设计为物体代理。它引入了两个关键模块,即局部多尺度特征聚合(LMFA)模块和全局特征聚合(GFA)模块,旨在完全捕获上下文信息,从而增强代理表示物体的能力。其中,LMFA 子模块通过坐标变换和使用最近邻关系来捕获物体级别的细节和局部上下文信息,实现了跨不同尺度的特征融合;GFA 子模块使用自注意机制,有选择地聚合整个场景中关键体素的特征,以捕获场景级上下文信息。在 nuScenes 和 KITTI 上的实验表明了我们方法的有效性。具体而言,在 nuScenes 上,SparseDet 以 13.5 FPS 的速度超过了之前最好的稀疏检测器 VoxelNeXt 2.2% 的 mAP;在 KITTI 上,它以 17.9 FPS 的速度,在困难级别任务上超过 VoxelNeXt 1.12% 的 AP3D。
- 图表
- 解决问题该论文旨在解决自动驾驶应用中基于LiDAR的稀疏3D物体检测的问题。现有方法要么使用单个中心体素的特征作为物体代理,要么将聚合的前景点簇视为物体代理。然而,前者缺乏聚合上下文信息的能力,导致物体代理的信息表达不充分。而后者则依赖于多阶段的管道和辅助任务,降低了推理速度。
- 关键思路论文提出了SparseDet,将稀疏查询设计为物体代理,并引入了两个关键模块:局部多尺度特征聚合(LMFA)模块和全局特征聚合(GFA)模块,旨在完全捕获上下文信息,从而增强代理表示物体的能力。其中,LMFA子模块通过坐标变换和使用最近邻关系来捕获物体级细节和局部上下文信息,实现了不同尺度之间的特征融合。GFA子模块使用自我注意机制,有选择地聚合整个场景中关键体素的特征,以捕获场景级上下文信息。
- 其它亮点论文在nuScenes和KITTI数据集上进行了实验,证明了SparseDet的有效性。特别是在nuScene上,SparseDet以13.5 FPS的速度超过了先前最佳的稀疏检测器VoxelNeXt 2.2%的mAP,而在KITTI上,它以17.9 FPS的速度在困难级别任务上超过了VoxelNeXt 1.12%的AP3D。
- 近期的相关研究包括:PointRCNN、VoxelNet、SECOND、PointPillars、CenterPoint等。
沙发等你来抢
去评论
评论
沙发等你来抢