OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision

2024年05月28日
  • 简介
    开放词汇检测(OVD)旨在检测超出检测器训练的基本类别之外的新类别的对象。然而,现有的在已知类别数据上训练的开放词汇检测器往往会给训练过的类别分配更高的置信度,并将新类别与背景混淆。为了解决这个问题,我们提出了OV-DQUO,一种具有去噪文本查询训练和开放世界未知对象监督的开放词汇DETR。具体来说,我们引入了一种通配符匹配方法,使检测器能够从由开放世界检测器识别出的未知对象和具有一般语义的文本嵌入对中学习,缓解了基本和新类别之间的置信度偏差。此外,我们提出了一种去噪文本查询训练策略,从开放世界未知对象中合成额外的噪声查询框对,通过对比学习训练检测器,增强其区分新对象与背景的能力。我们在具有挑战性的OV-COCO和OV-LVIS基准测试上进行了广泛的实验,分别在新类别上取得了45.6 AP50和39.3 mAP的最新成果,而无需额外的训练数据。模型和代码发布在https://github.com/xiaomoguhz/OV-DQUO上。
  • 图表
  • 解决问题
    本论文旨在解决开放词汇检测器在识别新类别时存在的置信度偏差问题,即将置信度高度集中在已知类别上,容易将新类别误判为背景。
  • 关键思路
    论文提出了一种名为OV-DQUO的开放词汇DETR方法,通过使用通配符匹配方法,使检测器能够学习来自开放世界检测器和具有一般语义的文本嵌入的未知对象对,从而减轻基础类别和新类别之间的置信度偏差。此外,论文还提出了一种去噪文本查询训练策略,通过对开放世界未知对象合成额外的噪声查询框对,进行对比学习来增强检测器区分新对象和背景的能力。
  • 其它亮点
    论文在挑战性的OV-COCO和OV-LVIS数据集上进行了大量实验,取得了45.6 AP50和39.3 mAP的新的最优结果,而无需额外的训练数据。此外,论文提供了模型和代码的开源。
  • 相关研究
    在相关研究方面,最近的研究主要集中在开放词汇检测和DETR模型上,例如《Open-Vocabulary Object Detection》和《DETR: End-to-End Object Detection with Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论