CVPR2022 | 图森科技提出Sparse Transformer刷新点云目标检测的SOTA

代码：https://github.com/TuSimple/SST

论文：https://arxiv.org/pdf/2112.06375.pdf

摘要

在基于LiDAR的自动驾驶3D目标检测任务中，检测物体与场景大小的比例呈现出超过2D检测的现象。因此，许多3D检测器直接使用2D检测器的常规方法，即在量化点云之后对特征图进行下采样。本文作者重新思考了这种固定思路对3D点云目标检测的影响。实验结果表明，下采样方法不仅无法带来优势，还会不可避免地造成信息损失。为了解决这个问题，本文提出了一种Single-stride Sparse Transformer (SST)来保持网络特征的空间尺寸。利用Transformer模型，SST不仅解决了已有方法中感受野不足的问题，还能够配合点云的稀疏性以降低计算代价。SST在大规模的Waymo开放数据集上也取得了最先进的结果，且该方法对小物体(行人)检测具有单步幅（Single-stride）的特点，在验证集上可达到83.8 LEVEL_1AP。

动机

二维图像检测的目标尺寸呈现长尾分布，且总体比例偏大，多尺度（Hierarchical）网络的结构非常适合。然而，如下图所示，3D点云目标检测的问题之一在于：目标尺寸占场景尺寸的比例非常非常小，且点云中物体尺寸都很小，由此，作者发问：点云目标检测中下采样的多尺度网络的作用是什么？

在已有研究中，特征下采样是一种常规的操作，不进行下采样会带来两个问题：计算消耗的增大和感受野的下降。针对这两个问题，作者实践了两种常规的方法：空洞卷积和大卷积核。

在表1中，D代表空洞卷积，D4至D0的步长配置为：{1; 2; 4; 8}, {1; 2; 4; 4}, {1; 2; 2; 2} 和 {1; 1; 1; 1}，结果表明：

从D3—>D2—>D1，较小步长有利于点云三维目标检测；从D1—>D0，对于车辆的较大物体D0的步长的感受野不够，对于较小尺寸的行人和自行车足够；上述结果验证了感受野对点云三维目标检测结果影响的猜想。
空洞卷积增加了感受野，使得车辆检测性能得到了提升，但同时牺牲了检测的精细度，使得行人和自行车等小目标的性能下降了。
增大的卷积核确实有效果，在各个目标上都提升了性能，但是计算时间已经来到了一个非常大的数值。

因此，作者对点云目标检测模型提出了以下设计思路：单一尺度结构、充分的感受野，以及可接受的计算消耗。

方法

本文提出的SST结构如上图所示，给定输入点云数据，首先使用VoxelNet、ECOND、Pointpillars等特征编码网络得到特征F。接着将它们划分为不重合的区域（Regional Grouping），送入稀疏注意力模块（Sparse Regional Attention）。为了解决目标尺度不一的问题，进一步通过偏移窗口（shift window）进行目标区域的再次划分，并使用稀疏注意力模块进行处理。

区域划分

对于传入的特征F，本文将其视为不同的Token序列。首先根据他们的空间位置进行分组。接着，稀疏注意力模块分别处理不同区域的Token。然后，根据Region Shift将Token再次分组，使用另一个稀疏注意力模块处理新的Token组。

稀疏注意力模块

对于划分后的Token序列，稀疏注意力模块采用传统的Transformer操作进行计算：

其中LN表示Layer Normalization，PE表示absolute positional encoding function，MSA是多头自注意力模块。作者进一步提出如下约束以利用点云的稀疏性：

即要求Token序列中的点数处于一个合理的较小区间。

最后，作者考虑到单阶段（one-stage）检测器和双阶段（two-stage）检测器之间有相当大的性能差距，选择LiDAR-RCNN作为第二级探测器构成一个双阶段检测器。LiDAR-RCNN是一个轻量级的网络，由一个简单的PointNet组成，它被用于提取原始点云输入的特征。

实验

本文在Waymo开放数据集上进行了实验。该数据集共包含1150个序列(超过200K帧)，其中798个序列作为训练集，202个序列用于验证集，150个序列构成测试集。

车辆检测结果

从下表可以看出，单阶段模型中，SST_1f的性能略低于CenterPoint，但SST_3f有大幅度的性能涨点；双阶段模型中，SST_TS_1f的表现一般，但SST_TS_3f较为显著地超越了大部分对比模型。

行人检测结果

从下表可以看出，SST_1f就可以达到SOTA的效果，且领先对比方法的性能较多，这说明SST固定步长结构的设计减少了信息损失，与周围远近的点都进行充分交互，使得其在小目标检测中表现非常突出。

IoU阈值

进一步地，为了探究定位精度，将IoU阈值设置地更小使得检测结果更加严格。在单帧方法中，对比MVF++*，SST在正常IoU阈值下比不过，但是小阈值时可以超过该模型，说明SST在定位精度提升上有一定效果。值得一提的是，在多帧方法中，虽然SST在车辆检测上不如MVF和3DAL（CVPR2021 Qi在waymo提出的offboard检测方法），但是在行人检测上SST的检测结果比采用200帧的3DAL还有1个点的提升，说明了SST在小目标检测上的性能优势。

可视化分析

下图表示了点像素与周围像素的注意力权重分布，可以看到：与不相关点的权重较大，说明了本文稀疏注意力模块的有效性。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR2022 | 图森科技提出Sparse Transformer刷新点云目标检测的SOTA

评论列表

评论