OD-DETR: Online Distillation for Stabilizing Training of Detection Transformer

2024年06月09日
  • 简介
    DETR(DEtection TRansformer)已成为一种主流的范式,主要是由于其与高精度和无后处理的常见架构有关。然而,DETR在训练动态方面存在不稳定性。相比基于CNN的检测器,它消耗更多的数据和epochs才能收敛。本文旨在通过在线蒸馏来稳定DETR的训练。它利用一个由指数移动平均(EMA)累积的教师模型,并将其知识蒸馏到在线模型中,包括以下三个方面。首先,利用教师中对象查询和地面真实(GT)框之间的匹配关系来指导学生,因此学生中的查询不仅基于自己的预测分配标签,还参考教师的匹配结果。其次,将教师的初始查询给予在线学生,并直接约束其预测与教师相应输出相一致。最后,使用来自教师不同解码阶段的对象查询来构建辅助组以加速收敛。对于每个GT,选择两个匹配成本最小的查询放入此额外组中,它们预测GT框并参与优化。广泛的实验表明,所提出的OD-DETR成功地稳定了训练,并显著提高了性能,而不需要引入更多参数。
  • 图表
  • 解决问题
    本论文旨在通过在线蒸馏来稳定DETR模型的训练,以提高其准确性和收敛速度。
  • 关键思路
    利用指导学生模型的教师模型,通过三个方面的知识蒸馏来稳定DETR模型的训练:使用教师模型中的匹配关系来指导学生模型;将教师模型的初始查询直接约束到学生模型中;利用教师模型的不同解码阶段的对象查询来构建辅助组,以加速收敛。
  • 其它亮点
    论文使用OD-DETR模型成功稳定了DETR模型的训练,提高了其性能,且不需要增加更多参数。实验使用了COCO和LVIS数据集,证明了OD-DETR模型的有效性。论文提供了开源代码。
  • 相关研究
    在目标检测领域,最近的相关研究包括:YOLOv4, EfficientDet, FCOS等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论