论文标题:End-to-End Semi-Supervised Object Detection with Soft Teacher

论文链接:https://arxiv.org/abs/2106.09018

作者单位:华中科技大学 &  MSRA

搭配Swin Transformer,可在COCO上目标检测刷到60.4 mAP!目前第二!实例分割刷到52.4 mAP!目前第一!性能优于STAC等网络。

与以前更复杂的多阶段方法相比,本文提出了一种端到端的半监督目标检测方法。端到端的训练在curriculum中逐渐提高伪标签质量,越来越准确的伪标签反过来有利于目标检测训练。我们还在这个框架内提出了两种简单而有效的技术:一种Soft Teacher机制,其中每个未标记边界框的分类损失由教师网络产生的分类分数加权;一种box jittering方法,用于选择可靠的伪框以进行框回归学习。在 COCO 基准上,所提出的方法在各种标记比率下(即 1\%、5\% 和 10\%)大大优于以前的方法。此外,当标记数据量相对较大时,我们的方法也证明表现良好。例如,通过利用 COCO 的 123K 未标记图像,它可以将使用完整 COCO 训练集训练的 40.9 mAP 基线检测器提高 +3.6 mAP,达到 44.5 mAP。在最先进的基于 Swin Transformer 的对象检测器(test-dev 上为 58.9 mAP)上,它仍然可以将检测精度显著提高 +1.5 mAP,达到 60.4 mAP,并将实例分割精度提高 +1.2 mAP,达到 52.4 mAP,推动了新的最先进技术。

内容中包含的图片若涉及版权问题,请及时与我们联系删除