论文标题:Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning Framework for Monocular 3D Object Detection
论文链接:https://arxiv.org/pdf/2207.04448.pdf
论文代码:https://github.com/yanglei18/Mix-Teaching
1摘要
单目3D目标检测是自动驾驶必不可少的感知任务。然而,对大规模有标签数据的高度依赖使得模型优化过程成本高昂且耗时。为了减少对人工标注的过度依赖,我们提出了Mix-Teaching,这是一种有效的半监督学习框架,可以在训练阶段同时使用标注和无标注的图像。Mix-Teaching首先通过自我学习训练为无标签图像生成伪标签。然后通过将实例级图像块粘贴到空白背景或有标签图像中,在具有更密集和更精确标签的混合图像上训练学生模型。这是第一个打破图像级别限制,将来自多帧的高质量伪标签放入一张图像中进行半监督训练的方法。此外,由于分类置信度和定位质量之间的不一致,仅使用基于置信度的标准很难从大量带噪声的预测结果中得到高质量的伪标签。为此,我们进一步引入了一个基于不确定性的过滤器,以帮助为上述混合操作选择可靠的伪框。据我们所知,这是第一个用于单目3D目标检测的统一半监督学习框架。Mix-Teaching在KITTI 数据集上的各种标签比率下,都能提高MonoFlex 和 GUPNet的性能。例如,当仅使用10%的有标签数据时,我们的方法在验证集上相对于GUPNet基线实现了大约+6.34%AP@0.7的提升。此外,利用完整有标签训练集和KITTI额外的48K原始图像,它可以进一步提高MonoFlex在AP@0.7上的汽车检测提升+4.65%,达到18.54%AP@0.7,在KITTI测试排行榜上所有基于单目的方法中排名第一。
2简述
单目3D目标检测是使用单张图像来预测周边目标的类别和3D目标框的任务。单目3D目标检测在自动驾驶及机器人技术中有独特的优势和潜力,成为学术和工业界的研究热点。很多新的目标检测方法取得了较大的精度提高,但却高度依赖有标签数据,人工和时间成本都很高。
现在常用的利用无标签数据的方法分为两种:伪标签和一致性规则。伪标签是通过自学习训练或Mean Teacher方法给无标签数据打上伪标签,然后在做过数据增强(保留原始伪标签)的相同图像上训练学生模型,让学生模型从伪标签数据中学习到信息。一致性规则则是增加一致性loss来约束模型在不同扰动下能够稳定预测,从而提高模型的泛化能力。
单目3D目标检测在KITTI上只有15%AP@0.7左右,而2D及基于激光雷达的3D目标检测指标已经达到或超过了85%~96%AP@0.7。这也就意味着用伪标签方法得到的伪标签本身就不可靠,用了反而会造成负面影响,漏检和误检都会很多。
为了优化这个低召回伪标签的问题,我们提出了Mix-Teaching,一种适用于大部分单目3D目标检测的通用半监督学习框架。
3贡献
Mix-Teaching中,首先通过自我学习训练来预测无标签数据的伪标签。然后将无标签样本分成具有高质量伪标签的图像块集合和不包含目标的背景图像集合。然后,学生模型在混合图像上进行训练,这些混合图像是通过将上述实例图像块粘贴到背景图像或粘贴到到通过强数据增强的有标注图像中而得到的。这样生成的合成图像就都是高质量的伪标签了,避免了一些漏标注的问题。最后,经过多阶段的训练,逐步将信息从有标签数据传递给无标签数据。
由于单目3D目标检测模型精度差,误标注问题严重,针对此问题,作者不再只通过置信度来过滤较差的伪标签,而是提出了一种基于不确定性的过滤器,该方法使用结构相同但参数不同的模型来估计每个目标的不确定性,如果同一目标的预测集的不确定性越高,该集中的预测数越少,它们间的定位误差也就越大。作者利用置信度和不确定性过滤器来过滤那些低质量的噪声伪标签,证实是有效的,而且由于去除这些噪声伪标签只在每个训练阶段的开始,所以效率也不会太低。
本文总结下来主要有三点贡献:
- 阐述了半监督学习方法在单目3D目标检测应用中的主要困难,并且为什么现有的SSL算法无法处理它们,基于此我们提出了Mix-Teaching。
- 为了减少模型过拟合噪声伪标签问题,提出了一种基于不确定性的过滤器,可以有效去除噪声伪标签。
- KITTI上实验证明了Mix-Teaching框架的有效性,作为SSL用于单目3D目标检测的首次研究,可作为进一步研究的基线框架。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢