- 简介在本文中,我们介绍了由IDEA研究院开发的DINO-X,这是目前开放世界物体检测性能最佳的统一物体中心视觉模型。DINO-X采用了与Grounding DINO 1.5相同的基于Transformer的编码器-解码器架构,以追求开放世界的物体级表示。为了使长尾物体检测更加容易,DINO-X扩展了其输入选项,支持文本提示、视觉提示和自定义提示。通过这些灵活的提示选项,我们开发了一个通用的物体提示,支持无提示的开放世界检测,使得无需用户提供任何提示即可检测图像中的任何物体。为了增强模型的核心定位能力,我们构建了一个包含超过1亿个高质量定位样本的大规模数据集,称为Grounding-100M,以提升模型的开放词汇检测性能。在如此大规模的定位数据集上进行预训练,导致了一个基础的物体级表示,这使得DINO-X能够整合多个感知头,同时支持多种物体感知和理解任务,包括检测、分割、姿态估计、物体描述和基于物体的问答等。实验结果证明了DINO-X的优越性能。具体来说,DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本物体检测基准上的AP分别为56.0、59.8和52.4。值得注意的是,它在LVIS-minival和LVIS-val基准的稀有类别上分别获得了63.3 AP和56.5 AP,均比之前的最先进性能提高了5.8 AP。这一结果强调了其显著改进的长尾物体识别能力。
- 图表
- 解决问题该论文旨在解决开放世界中的长尾物体检测问题,提高模型对罕见类别的识别能力,这是一个在计算机视觉领域长期存在的挑战。
- 关键思路DINO-X通过采用Transformer-based的编码器-解码器架构,并引入灵活的输入选项(如文本提示、视觉提示和自定义提示),开发了一种无需提示即可检测图像中任何对象的通用对象提示。此外,通过大规模的Grounding-100M数据集预训练,增强了模型的基础对象级表示,使其能够支持多种感知任务。
- 其它亮点DINO-X在COCO、LVIS-minival和LVIS-val零样本检测基准上取得了显著的性能提升,特别是在罕见类别上的表现优于之前的最先进方法。该模型还支持多种感知任务,包括检测、分割、姿态估计、对象描述和基于对象的问答等。此外,论文提供了开源代码和预训练模型,便于后续研究。
- 近年来,关于开放词汇检测和长尾分布的研究逐渐增多。例如,《Long-Tail Learning via Logit Adjustment》提出了通过调整logits来解决长尾分类问题;《OVANet: Open-Vocabulary Detection via Adaptive Prompting》则通过自适应提示来实现开放词汇检测。这些研究为DINO-X的发展提供了重要的参考和基础。
沙发等你来抢
去评论
评论
沙发等你来抢