- 简介开放词汇检测是一项具有挑战性的任务,因为需要基于类别名称检测对象,包括训练过程中未遇到的对象。现有方法通过在不同的大规模数据集上进行预训练,展示了强大的零样本检测能力。然而,这些方法仍然面临两个主要挑战:(i)如何通用地集成不同的数据来源进行端到端训练,(ii)如何有效地利用语言感知能力进行区域级别的跨模态理解。为了解决这些挑战,我们提出了一种新颖的统一开放词汇检测方法,称为OV-DINO,它在一个统一的框架中通过语言感知选择性融合在不同的大规模数据集上进行预训练。具体而言,我们引入了一个统一数据集成(UniDI)流程,将不同的数据来源统一到以检测为中心的数据中,以实现端到端训练,并消除伪标签生成中的噪声。此外,我们提出了一个语言感知选择性融合(LASF)模块,通过语言感知查询选择和融合过程,实现模型的语言感知能力。我们在流行的开放词汇检测基准数据集上评估了所提出的OV-DINO的性能,在零样本情况下实现了50.6%的AP(COCO数据集)和40.0%的AP(LVIS数据集),展示了其强大的泛化能力。此外,在COCO数据集上微调的OV-DINO实现了58.4%的AP,优于许多具有相同骨干的现有方法。OV-DINO的代码将在\href{https://github.com/wanghao9610/OV-DINO}{https://github.com/wanghao9610/OV-DINO}上提供。
- 图表
- 解决问题本论文旨在解决开放词汇检测(open-vocabulary detection)中的两个主要挑战:如何普遍整合不同数据源进行端到端训练,以及如何有效利用语言感知能力进行区域级跨模态理解。
- 关键思路论文提出了一种名为OV-DINO的统一开放词汇检测方法,通过在统一框架中对不同的大规模数据集进行语言感知选择性融合的预训练来解决这些挑战。具体而言,通过引入统一数据集集成(UniDI)管道来实现端到端训练,并通过语言感知选择性融合(LASF)模块来实现模型的语言感知能力。
- 其它亮点论文在流行的开放词汇检测基准数据集上进行了评估,以零样本方式实现了50.6%的COCO数据集AP和40.0%的LVIS数据集AP,表现出强大的泛化能力。此外,针对COCO进行微调后,OV-DINO取得了58.4%的AP,优于许多使用相同骨干的现有方法。OV-DINO的代码将在GitHub上公开。
- 最近的相关研究包括:Zero-shot Object Detection(CVPR 2017),Large Scale Visual Recognition Challenge 2019(CVPRW 2019)和Zero-shot Detection via Vision and Language Knowledge Distillation(CVPR 2020)。
沙发等你来抢
去评论
评论
沙发等你来抢