Sparse R-CNN是最近的一种强目标检测Baseline,通过对稀疏的、可学习的proposal boxesproposal features进行集合预测。在这项工作中提出了2个动态设计来改进Sparse R-CNN

首先,Sparse R-CNN采用一对一标签分配方案,其中匈牙利算法对每个Ground truth只匹配一个正样本。这种一对一标签分配对于学习到的proposal boxesGround truth之间的匹配可能不是最佳的。为了解决这一问题,作者提出了基于最优传输算法的动态标签分配(DLA),在Sparse R-CNN的迭代训练阶段分配递增的正样本。随着后续阶段产生精度更高的精细化proposal boxes,在后续阶段对匹配进行约束,使其逐渐松散。

其次,在Sparse R-CNN的推理过程中,对于不同的图像,学习到的proposal boxesproposal features保持固定。在动态卷积的驱动下提出了Dynamic Proposal Generation(DPG)来动态组合多个Proposal Experts,为连续的训练阶段提供更好的初始proposal boxesproposal features。因此,DPG可以导出与样本相关的proposal boxesproposal features来进行判断。

实验表明,Dynamic Sparse R-CNN可以增强具有不同Backbone的强Sparse R-CNN Baseline。特别是,Dynamic Sparse R-CNN在COCO 2017验证集上达到了最先进的47.2% AP,在相同的ResNet-50 Baseline下比Sparse R-CNN高出2.2% AP。

论文链接:

https://arxiv.org/abs/2205.02101

内容中包含的图片若涉及版权问题,请及时与我们联系删除