OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion

2024年07月10日
  • 简介
    开放词汇检测是一项具有挑战性的任务,因为需要基于类名检测对象,包括在训练期间没有遇到过的对象。现有方法通过在各种大规模数据集上进行预训练和伪标签处理,展示了强大的零样本检测能力。然而,这些方法遇到了两个主要挑战:(i)如何有效地消除伪标签中的数据噪声,(ii)如何高效地利用语言感知能力进行区域级跨模态融合和对齐。为了解决这些挑战,我们提出了一种新的统一开放词汇检测方法,称为OV-DINO,它在统一框架中通过语言感知选择性融合在各种大规模数据集上进行预训练。具体而言,我们引入了统一数据集成(UniDI)管道,以实现端到端训练,并通过将不同的数据源统一为检测中心的数据格式来消除伪标签生成中的噪声。此外,我们提出了一种语言感知选择性融合(LASF)模块,通过语言感知查询选择和融合过程增强跨模态对齐。我们在流行的开放词汇检测基准测试上评估了所提出的OV-DINO的性能,在零样本方式下取得了50.6%的COCO基准测试和40.1%的LVIS基准测试的AP,展示了其强大的泛化能力。此外,对COCO进行微调的OV-DINO实现了58.4%的AP,优于许多具有相同骨干的现有方法。 OV-DINO的代码可在https://github.com/wanghao9610/OV-DINO上获得。
  • 图表
  • 解决问题
    本论文旨在解决开放词汇检测的挑战,即如何在检测时有效地识别未经过训练的类别,同时如何利用语言感知能力进行跨模态融合和对齐。
  • 关键思路
    本文提出了一种新的统一的开放词汇检测方法,称为OV-DINO,它在多样化的大规模数据集上进行了预训练和伪标签,并通过语言感知选择性融合模块实现了跨模态对齐。
  • 其它亮点
    本文提出了Unified Data Integration(UniDI)管道来消除伪标签生成中的数据噪声,并通过Language-Aware Selective Fusion(LASF)模块增强了跨模态对齐。在COCO和LVIS基准测试中,OV-DINO实现了50.6%和40.1%的AP,达到了最先进的水平。此外,OV-DINO在COCO上的微调实现了58.4%的AP,优于许多现有方法。
  • 相关研究
    在这个领域中,最近的相关研究包括:Zero-shot object detection(CVPR2017)、Learning to learn from noisy labeled data(CVPR2018)和Few-shot object detection with attention-routed proposa(CVPR2019)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论