1.png

目标检测是计算机视觉中的一个重要课题,后处理是典型目标检测流水线的重要组成部分,这对传统目标检测模型的性能造成了严重的瓶颈。作为首个端到端目标检测模型,DETR摒弃了Anchor和非最大抑制(NMS)等手动组件的要求,大大简化了目标检测过程。

然而,与大多数传统的目标检测模型相比,DETR收敛速度非常慢,query的含义也很模糊。因此,受Step-by-Step概念的启发,本文提出了一种新的两阶段目标检测模型,名为DETR with YOLO(DEYO),该模型依赖于渐进推理来解决上述问题。DEYO是一个两阶段架构,分别包括经典目标检测模型和类DETR模型作为第一和第二两阶段。

具体而言,第一阶段向第二阶段提供高质量的query和Anchor反馈,与原始DETR模型相比,提高了第二阶段的性能和效率。同时,第二两阶段补偿由第一两阶段检测器的限制引起的性能下降。

广泛的实验表明,DEYO在12和36个Epoch分别达到50.6 AP和52.1 AP,同时利用ResNet-50作为COCO数据集的主干和多尺度特征。与DINO相比,DEYO模型在2个Epoch的设置中提供了1.6 AP和1.2 AP的显著性能改进。

1、简介

目标检测涉及一个过程,其中检测器识别图像中的感兴趣区域,并用边界框和类标签对其进行标记。经过多年来对经典目标检测器的大力发展,已经开发出了几种优秀的单阶段和两阶段目标检测模型。检测器通常包括两部分,即用于预测物体类别和边界框的主干和头部。最近的架构在主干和头部之间插入层,以收集不同阶段的特征图。这些层被称为物体检测器的颈部。

R-CNN系列是最具代表性的两阶段目标检测器,包括Fast R-CNN和Faster R-CNN。最具代表性的单阶段目标检测模型是YOLO[4,5,6]、SSD和RetinaNet。这些经典目标检测器的一个共同特点是严重依赖手工设计的组件,如Anchor和非最大抑制(NMS),NMS是一个去除冗余边界框的后处理过滤器。近年来,Anchor-Free方法,如CenterNet、CornerNet和FCOS,已经取得了与Anchor-Base的模型相当的结果。然而,Anchor-Base和Anchor-Free的两种方案都利用非最大抑制进行后处理,这给经典检测器带来了瓶颈。此外,由于非最大抑制不使用图像信息,因此在边界框保留和删除中容易出错。

经典的检测器主要基于卷积神经网络。DETR依靠基于Transformer的编码器-解码器架构来消除对Anchor和NMS手动组件的依赖。此外,DETR使用匈牙利损失直接预测一对一对象集,简化了目标检测流程。尽管DETR有许多吸引人的特性,但它存在一些问题。首先,DETR需要500个训练周期才能达到吸引人的表现。此外,DETR的query很模糊,无法充分利用。

应该指出的是,已经提出了一系列基于DETR的变体模型,很好地解决了上述问题。例如,通过设计新的注意力模块,Deformable DETR专注于参考点周围的采样点,以提高交叉注意力的效率。Conditional DETR将DETR query分离为content和location部分,以澄清query的含义。此外,DAB-DETR将query视为4D Anchor,并逐层改进。基于DAB-DETR,DN-DETR表明,DETR训练的缓慢收敛是由于早期训练阶段的二分图匹配不稳定性。因此,引入去噪组技术显著加速了DETR模型的收敛。

在上述模型的推动下,DINO通过使用Object365进行检测预训练和使用Swin Transformer作为主干网络,进一步改进了DETR。事实上,DINO在COCO val2017数据集上获得了63.3AP的最新(SOTA)结果。目前,DINO在类DETR模型中具有最快的训练收敛速度和最高的精度,并证明类DETR的检测器实现了与经典检测器同等的性能,甚至优于经典检测器。

2.png

尽管相关工作显著改进了类DETR模型,但作者仍然认为类DETR模型很难直接预测一对一的对象集。经典检测器,如YOLOv5,可以在640x640像素的图像中生成25200个预测作为其输出。假设DETR使用的Transformer模型计算与query数成正比,则类DETR模型的query数通常在100到900之间。显然,单个YOLO预测的计算负担比类DETR模型低得多。因此,受“循序渐进”思想的启发,作者使用低成本和高质量的YOLO预测作为第二阶段类DETR模型的输入,以降低预测一对一对象集的难度。该策略为类DETR模型提供了有限数量的query,以专注于具有挑战性的任务,例如难以识别的目标和严重遮挡的目标,从而提高了整体性能。

本文提出了一种新的基于渐进推理的两阶段目标检测模型。具体而言,本文的模型将YOLOv5用作第一阶段,将类似DETR的模型用作第二阶段。YOLO模型的输出由过渡组件处理,包括目标和边界框信息,然后将其传递给类DETR模型。YOLO的高质量初始化query、anchor和DETR的初始化query以及初始化的anchor被组合,然后被发送到Transformer的解码器。

实验结果表明,所开发模型的第二阶段解码器可以容易地识别来自第一阶段的信息。事实上,类似DETR的模型更多地关注于微调初始边界框、验证和调整类别,以及预测NMS由于严重遮挡而错误滤除的目标或第一阶段检测器无法轻易识别的目标。此外,由于存在高质量的初始化query和anchor,优化目标在第二阶段中为query和anchor都进行了初始化。第二阶段的二分图匹配的不稳定性进一步降低,训练时间大大加快。

所提出的两阶段网络是相辅相成的,因为模型的第一阶段为第二阶段提供了高质量的初始化,以便后一阶段能够快速地关注难以学习的信息。这一概念加速了类DETR模型的收敛,提高了它们的峰值性能。第二阶段模型对第一阶段模型进行微调,以获得更好的结果。因此,所提出的模型补偿了由于NMS限制导致的经典检测器的性能下降,从而使模型能够识别严重遮挡的目标。

这是第一个将渐进推理引入类DETR检测模型的工作。本文的贡献总结如下:

  1. 设计一个新的两阶段模型,灵感来源于循序渐进的思想。实验结果表明,这种渐进推理显著降低了预测一对一目标集的难度。此外,从一个新的角度来看,类DETR模型的训练收敛时间显著减少,同时模型的精度提高到一个新水平。

  2. 克服了经典检测器因NMS而遭受的瓶颈性能问题。此外,在解决了基于NMS的性能瓶颈问题之后,分析了经典检测器的潜在性能。

  3. 进行几个实验,验证了想法,并探索模型中每个组件的贡献。

内容中包含的图片若涉及版权问题,请及时与我们联系删除