PV-RCNN++ | 利用Transformer和Voxel Query让Point与Voxel更好结合成就3D检测

outdoor LiDAR 点云中的前景点（即物体）和背景点之间经常存在很大的不平衡。它阻碍了检测器专注于信息区域以产生准确的 3D 目标检测结果。

本文通过语义Point-Voxel特征交互提出了一种新颖的目标检测网络，称为 PV-RCNN++。与大多数现有方法不同，PV-RCNN++ 探索语义信息以提高目标检测的质量。

首先，提出了一个语义分割模块来保留更多的判别前景关键点。这样的模块将指导 PV-RCNN++ 在关键区域集成更多与目标相关的point-wise和voxel-wise特征。然后，为了使point-wise和voxel-wise有效地交互，作者利用基于曼哈顿距离的voxel query来快速采样关键点周围的voxel-wise特征。与ball query相比，这样的voxel query将把时间复杂度从 O(N) 降低到 O(K)。

此外，为了避免只学习局部特征，作者设计了一个基于注意力的残差 PointNet 模块来扩展感受野，以自适应地将相邻的voxel-wise特征聚合到关键点中。

在 KITTI 数据集上的大量实验表明，PV-RCNN++ 在 Car、Pedestrian 和 Cyclist 上实现了 81.60%、40.18%、68.21% 的 3D mAP，实现了与最先进技术相当甚至更好的性能。

1、简介

随着自动驾驶、机器人系统和虚拟现实的发展，2D 和 3D 领域的目标检测变得越来越重要。

通过各种数据表示（例如，单目图像、立体相机和 LiDAR 点云）在 3D 目标检测方面取得了很大进展。与从 2D 图像中检测 3D 目标相比，LiDAR 点云在检测 3D 目标中发挥着关键作用，因为它包含相对精确的深度和 3D 空间结构信息。

基于 LiDAR 的 3D 目标检测器大致可分为两大类：Voxel-based和Point-based。

Voxel-based将点离散为规则网格以方便 3D 稀疏卷积神经网络 (CNN)。然后，可以将体素化的特征图压缩为鸟瞰图（BEV），然后将其送到区域建议网络（RPN）以产生预测。相反，Point-based的主要采用PointNet++作为Backbone，以原始Point为输入，通过迭代采样和分组操作抽象Point特征集。

与仅Voxel-based和Point-based的方法不同，PV-RCNN 探索了point-wise和voxel-wise特征之间的交互。特别是，PV-RCNN 深度集成了 3D Voxel CNN 和基于 PointNet 的集合抽象（SA），以增强特征学习能力。具体来说，提出了一种Voxel Set Abstraction（VSA），通过最远点采样（FPS）的采样关键点对不同尺度的voxel-wise特征进行编码。VSA 还通过坐标变换和投影，将 BEV 的特征和原始点特征连接成关键点，以更全面地了解 3D 场景。

尽管如此，作者观察到outdoor LiDAR点云中存在包含 3D 目标的小信息区域和大的冗余背景区域之间的巨大不平衡。它对精确的 3D 目标检测提出了挑战。一般来说，激光雷达获得的点云覆盖范围有数百米，其中只有几辆小汽车被捕获，其余的都是大量的背景点。然而，在 PV-RCNN 中，整个 3D 场景是通过 FPS 的少量采样关键点来概括的。在选择关键点时，FPS倾向于选择较远的点以均匀地覆盖整个点云，这导致过多的不重要的背景点被保留，许多有价值的前景点被丢弃。

因此，PV-RCNN 的性能主要是由于前景物体提供的特征不足而受到限制。因此，作者认为如果有先验知识可以引导检测器专注于关键的前景对象以提取更有价值的特征。具体灵感则是利用点云语义分割的结果作为先验知识来指导3D目标检测器。

为此，作者通过语义Point-Voxel特征交互（称为 PV-RCNN++）提出了一种新颖的 3D 目标检测网络。首先，引入了一个轻量级且快速的前景点采样Head，该Head是从 PointNet++ 精心修改的，以选择适当的与目标相关的关键点。作者删除了 PointNet++ 中的特征传播（FP）层，以避免大量的内存使用和时间消耗。只保留 SA 层以产生更有价值的关键点。

具体来说，在每个 SA 层中，采用Binary Segmentation Module对前景和背景点进行分类。然后，采用一种新颖的采样策略，语义引导的最远点采样（S-FPS），以分割分数作为样本和组代表点的指导。与 FPS 不同，S-FPS 更偏爱正样本点，使得更多的前景点保留在 SA 层中。因此，SA 层中的采样点可以作为后续操作的关键逐点表示。

在获得更具判别性的关键点之后，挑战将是如何通过关键点有效地整合point-wise和voxel-wise特征。

作者有2个需求：

加快point和voxel之间的交互；

有效地从voxel-wise特征中提取3D信息。

具体来说，首先采用 3D 稀疏卷积对体素化点云进行编码。然后，提出了一个快速voxel到point交互模块，以有效地对关键点周围的相邻voxel-wise特征进行采样和分组。现有的Query策略为Ball Query，花费太多时间来计算从每个voxel到关键点的欧几里得距离，以确定voxel是否在给定的半径内。因此，本文将关键点视为voxel，在 3D 空间中规则排列，然后利用基于曼哈顿距离的Voxel Query策略快速识别每个关键点的相邻voxel-wise特征。与Ball Query相比，Voxel Query大大减少了从 O(N) 到 O(K) 的时间消耗，其中 N 是voxel的总数，K 是关键点周围相邻voxel的数量。

本文还提出了一种基于注意力的残差PointNet模块来抽象相邻的voxel-wise特征以提取多尺度 3D 信息。作者在每个关键点的Voxel Set上应用自注意力机制来生成相应的注意力图，让每个voxel拥有更全面的感知场，包含更多的 3D 结构和附近其他voxel的场景信息。最后，引入了一个轻量级的残差 PointNet 模块，以进一步提取和聚合精细的voxel-wise特征。

主要贡献总结如下：

引入了semantic-guided keypoint sampling module，以从点云中保留更多有价值的前景点，这有助于检测器专注于包含 3D 目标的关键区域。

利用基于曼哈顿距离的Voxel Query来快速收集关键点周围的相邻voxel-wise特征，与Ball Query相比减少了时间消耗，提高了Point-Voxel交互的效率。
提出了一个基于注意力的残差 PointNet 模块，它允许每个Voxel对邻域进行自适应和非局部总结，以实现更准确的预测。
大量实验和结果表明，提出的方法在常见的 3D 目标检测基准 KITTI 数据集上取得了相当的性能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

PV-RCNN++ | 利用Transformer和Voxel Query让Point与Voxel更好结合成就3D检测

1、简介

主要贡献总结如下：

评论列表

评论