以下文章来源于微信公众号：小白学视觉

作者：小白学视觉

链接：https://mp.weixin.qq.com/s/S7LaeCdkJgScG7LLWNs-dA

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读

本文提出了一种基于空间自蒸馏的对象检测器（SSD-Det）来挖掘空间信息，以自蒸馏的方式细化不准确的框，提升了基于不精确box的目标检测性能，并且在多个数据集上都优于其它state-of-the-art方法。

paper：https://arxiv.org/pdf/2307.12101.pdf

code：https://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Det

导读：

本文要解决的问题：

在目标检测任务中，当只有不精确的bounding box作为监督信号时，模型的检测性能会显著下降。而获取精确的bounding box标注又非常耗时费力。那么如何利用这些不精确的bounding box来训练更加鲁棒的目标检测模型？

具体而言：

获取精确的bounding box标注代价高昂且具有挑战性。
直接使用不精确的bounding box会导致目标漂移、组预测和局部关键区域预测等问题。
以往的方法通常依赖类别信息进行框的选择和调整，没有充分利用空间信息。

为了解决这些问题，本文提出基于空间自蒸馏的目标检测网络SSD-Det(Spatial Self-Distillation based Object Detector)。主要贡献是：

提出了SPSD( Spatial Position Self-Distillation)模块，利用空间信息生成更高质量的候选框。
提出了SISD( Spatial Identity Self-Distillation)模块，预测每个候选框与目标的空间IoU，辅助选择最佳框。
SPSD和SISD模块相结合，有效利用了空间信息和类别信息，显著提升基于不精确box的目标检测性能。
在MS-COCO和VOC数据集上进行实验表明，该方法优于其它state-of-the-art方法。

方法

本文目标是用不精确的边界框学习一个稳健的检测器。本文设计一个分支来细化不精确的边界框，然后用细化的框训练检测器头或检测器。最重要的部分是如何设计细化策略。本文首先设计了一个基本的两阶段框细化器(图3中的灰色区域)，作为原始解决方案。然后，提出SPSD和SISD并添加到其中，以进一步利用空间线索进行框细化，产生SSD-Det。总体损失函数公式化为：

其中α1，α2和α3分别设定为0.25，0.25和4。表示检测器或检测头的损失。在推理时，仅使用检测器或检测头。

主要创新模块

本文主要创新包含三大模块：Basic Box Refiner模块，SPSD模块以及SISD模块（见figure3）。这三者的作用、关系及联系如下：

Basic Box Refiner

(1) 作用：提供基础框架，依赖分类信息进行候选框精炼。

(2) 原理：

对每个物体生成候选框组成bag
使用分类分支预测每个框属于各类别的概率
使用实例分支预测每个框被选中的概率
计算分类概率和实例概率的乘积作为框的得分
选择得分最高的前k个框，计算其加权平均作为精炼结果

(3) 问题：仅依赖分类信息容易导致目标漂移、组预测等问题

SPSD

(1) 作用：1、改进候选框的生成；2、使用空间信息提升框质量；3、为后续精炼提供更好的上限

(2) 原理：

输入：Basic Box Refiner产生的候选框
输出：更高质量的候选框
预测更准确的框来优化候选框的生成
使用回归网络学习候选框之间的空间对应关系
监督信号是不精确的ground truth框
预测框与ground truth框的空间偏差
利用学习到的空间知识纠正基础框生成模块的误差
迭代优化，产生更准确接近ground truth的候选框

SISD

(1) 作用：1、改进候选框的选择；2、引入空间信息，缓解目标漂移、组预测等问题；3、选择更准确的框进行精炼。

(2) 原理：

对每个候选框预测其与目标的空间IoU
IoU与分类概率相结合作为新得分进行选择

(3) 效果：

引入空间信息，缓解目标漂移、组预测等问题
选择更准确框进行精炼

三者关系与联系

(1) Basic Box Refiner提供整体框架；(2) SPSD受Basic Box Refiner监督进行迭代训练；(3) SISD预测的IoU可指导Basic Box Refiner的选择；(4) 三者一起组成完整的端到端框精炼网络；(5) Basic Box Refiner依赖分类信息；(6) SPSD和SISD引入空间信息进行增强；(7) 三者相互配合达到更好的精炼效果。

总的来说Basic Box Refiner提供基础框架，SPSD和SISD是关键的创新点，引入空间信息增强鲁棒性，三者相互配合形成端到端的框精炼网络，但各自作用不同又相互补充，共同解决基于弱监督框的检测问题！

实验

实验设置

数据集和评估指标。MS-COCO和PASCAL VOC 2007。MS-COCO(2017版本)有118k训练和5k验证图像，包含80个常见对象类别。PASCAL VOC 2007是最流行的通用目标检测基准数据集之一，包含20个类别。

评估指标。COCO的平均精度(AP)和VOC的mAP@[0.5，0.95]及mAP@.5进行评估。报告{AP，AP50，AP75，AP小，AP中，AP大}指标。

合成嘈杂数据集。通过扰动原始标注中的干净框来模拟嘈杂的边界框。在VOC上模拟10%到40%的各种框噪声水平，在COCO上模拟{20%，40%}。

实现细节。本文基于MMDetection在FasterRCNN上用ResNet50-FPN backbone实现方法。所有设置与先前方法采用FPN以进行公平比较。与MS-COCO上的对象检测默认设置相似，本文在8个GPU上以每GPU2个图像的批量大小使用随机梯度下降算法进行1x训练计划进行优化。对于VOC数据集，批量大小为每GPU 2个图像，2个GPU。本文报告的是单尺度(COCO为1333 * 800，VOC为1000 * 600)的性能。

与SOTA的比较

在MS-COCO和VOC 2007数据集上与几种最新方法进行比较。Clean-FasterRCNN和Noisy-FasterRCNN分别表示在干净(原始标注)和嘈杂标注下默认设置训练的FasterRCNN模型。

MS-COCO数据集。表1显示了在MS-COCO上的比较结果。不精确的边界框标注明显降低了vanilla Faster R-CNN的检测性能。Co-teaching和SD-LocNet只轻微提高了检测性能，特别是在40%框噪声下。这表明小损失样本选择和样本权重分配无法很好地处理嘈杂的框标注。KL Loss略微改善了20%和40%框噪声下的性能。通过将对象视为实例包，OA-MIL在一定程度上对嘈杂的边界框具有鲁棒性，并优于其他方法。尽管如此，之前提到的标签分配包构建限制了其在重度噪声下的能力。本文的方法对嘈杂的边界框更具鲁棒性。它以大幅度优势击败其他方法，在高框噪声水平下显著提升了各项指标的性能。例如，在40%框噪声下，端到端的SSD-Det达到27.6 AP和53.9 AP50，相比最先进的方法OA-MIL分别提高9.0和11.3点。另外，通过在FasterRCNN上重新训练，性能进一步达到29.3 AP和54.8 AP50。使用ResNet-101作为backbone时，性能也获得一致的改进。在MS-COCO测试集上，本文的方法也取得了最先进的性能。

VOC 2007数据集。表2显示在VOC 2007测试集上的比较结果。Co-teaching、SD-LocNet和KL Loss无法很好地处理不精确的边界框标注。OA-MIL在不同的嘈杂数据集上改进了性能。本文的方法在10%、20%、30%和40%嘈杂框数据集上进一步改进，分别达到77.10、74.80、71.50和66.90 AP50。

消融实验分析

为进一步分析SSD-Det的有效性和鲁棒性，本文在COCO验证集上进行了更多消融实验。

模块消融。表3给出了本文方法中每个组件的消融研究，包括：(i) 基本框细化器的不同阶段。即不带第二阶段(2-Ref)训练对象检测器，其中第一阶段预测的伪框用作并行检测器的监督。(ii) SPSD，即不带SPSD训练，其中对象包（object-bag）直接通过围绕嘈杂真值或第一阶段预测的伪框的邻域采样构建。(iii) SISD。(iv) 使用FasterRCNN重新训练(Re-Train)。

SPSD有效性。如表3所示，SPSD在MS-COCO上进一步改进了检测性能，特别是在高框噪声水平下，例如在40%框噪声水平下，SPSD将性能从24.6提升到27.2。在表4中，本文对SPSD进行了进一步的切割。仅在第二阶段采用SPSD包构建，性能提高了1.4 AP。当使用第一阶段的建议分数作为权重时，性能进一步改进。在所有阶段都采用SPSD时，AP达到27.2。图5显示了包质量。使用SPSD后，平均IoU从40.3增加到58.7，最大值和前10个IoU增加到78.3和75.1，这表明提案选择的上限更好。更多高质量建议带来更好的优化和更容易的建议选择。

SPSD模块数量。如表6所示，添加3个SPSD时，性能略有下降，可能是由于错误累积超过额外阶段带来的性能提升。因此，2个SPSD是本文的默认设置。

SISD的有效性。SISD旨在在框选择中选择与对象相关的建议。在40%和20%框噪声下，检测性能分别从27.2提高到27.6和从33.0提高到33.6，这验证了该模块的有效性，如表3所示。本文还研究了SISD中的ORE策略(表5)。对象特征F+j与建议特征Fj的减法或拼接都不起作用。使用加法策略时，性能为27.60。如果SISD共享两个fc层，则性能降至22.99，因为优化目标是相互矛盾的(身份区分同一类别中的对象)。如果直接使用RoI特征而没有ORE，性能下降到27.32 AP，验证了对象相关性策略的有效性。

重新训练的影响。与大多数WSOD方法一样，本文通过训练一个完全监督的检测器(例如Faster R-CNN或RetinaNet)来进行回归对象位置以获得更精确的结果。如表7所示，本文在40%和20%噪声数据集上获得了更好的结果，分别为20.29 AP和34.37 AP。本文还发现，如果SSD-Det仅训练细化器并使用伪标签训练FasterRCNN，结果很好但低于联合训练后重新训练给出的结果(表7第1行)。这是因为联合训练有利于框细化。

在不同检测器上的实验。本文在本文方法细化的框上重新训练最近的检测器，例如SparseRCNN和Deformable DETR。表8验证了本文的方法实现了一致的改进。

可视化和讨论。图4显示OA-MIL面临小或重叠对象的缺失实例和部分预测问题，而本文的方法效果仍很好。为了更好地直观地理解SISD和SPSD，本文在图5中可视化了SSD-Det中包构建的质量。然后，本文对“漂移”、“组”和“局部支配”问题进行了分解。

本文统计计算基线和本文的三种噪声类型的“坏”细化框(与真值IoU较小)的比例，如表9所示。漂移、组和局部问题从15.1%、6.7%、2.8%降低到1.5%、1.7%、1.0%，表明本文的改进。

真实生活嘈杂标注实验。真实生活嘈杂标注源自：低质量数据(例如遮挡、模糊)、人类标注错误和自动机器标注器局限性。来自人为错误的噪声相当主观，因为标注者之间的差异。为了更客观的分析，使用来自机器标注器的嘈杂标注进行实验。本文将好的训练过的Faster R-CNN应用于Objects365图像，生成Objects-F数据集，应用于COCO-val图像生成COCO-F数据集。使用P2BNet（基于点的标注器）用于COCO-val图像带点标注生成COCO-P数据集。SSD-Det有效改进了低质量框。如表10所示，使用SSD-Det的细化，Objects-F(从44.3提高到47.0)、COCO-F(从45.1提高到48.2)和COCO-P(从55.6提高到65.2)数据集的平均IoU均有所提高。此外，所有数据集的可靠标注比例增加，噪声类别的频率(局部、过大和位移)均有所降低。

结论

本文主要解决目标检测任务中，当只有不精确的bounding box作为监督信号时，模型的检测性能会显著下降的问题，在工程实际中，特别是标注资源较少时，将大模型进行预标注结果直接拿来训练，具有较大实用价值！

AIHIA | AI人才创新发展联盟2023年盟友招募

AI融资 | 智能物联网公司阿加犀获得高通5000W融资

Yolov5应用 | 家庭安防告警系统全流程及代码讲解
江大白 | 这些年从0转行AI行业的一些感悟

注意：大白梳理对接AI行业的一些中高端岗位，年薪在50W~120W之间，图像算法、搜索推荐等热门岗位，欢迎感兴趣的小伙伴联系大白，提供全流程交流跟踪，各岗位详情如下：

《AI未来星球》陪伴你在AI行业成长的社群，各项福利重磅开放：

（1）198元《31节课入门人工智能》视频课程；

（2）大白花费近万元购买的各类数据集；

（3）每月自习活动，每月17日星球会员日，各类奖品送不停；

（4）加入《AI未来星球》内部微信群；

还有各类直播时分享的文件、研究报告，一起扫码加入吧！

人工智能行业，研究方向很多，大大小小有几十个方向。

为了便于大家学习交流，大白创建了一些不同方向的行业交流群。

每个领域，都有各方向的行业实战高手，和大家一起沟通交流。

目前主要开设：Opencv项目方面、目标检测方面、模型部署方面，后期根据不同领域高手的加入，建立新的方向群！

大家可以根据自己的兴趣爱好，加入对应的微信群，一起交流学习！

大家一起加油！

内容中包含的图片若涉及版权问题，请及时与我们联系删除

SSD-Det，不精确的标注框，同样可以实现目标检测SOTA！（附论文及源码）

导读：