在本文中,我们介绍了由IDEA研究院开发的DINO-X,这是目前开放世界物体检测性能最佳的统一物体中心视觉模型。DINO-X采用了与Grounding DINO 1.5相同的基于Transformer的编码器-解码器架构,以追求开放世界的物体级表示。为了使长尾物体检测更加容易,DINO-X扩展了其输入选项,支持文本提示、视觉提示和自定义提示。通过这些灵活的提示选项,我们开发了一个通用的物体提示,支持无提示的开放世界检测,使得无需用户提供任何提示即可检测图像中的任何物体。为了增强模型的核心定位能力,我们构建了一个包含超过1亿个高质量定位样本的大规模数据集,称为Grounding-100M,以提升模型的开放词汇检测性能。在如此大规模的定位数据集上进行预训练,导致了一个基础的物体级表示,这使得DINO-X能够整合多个感知头,同时支持多种物体感知和理解任务,包括检测、分割、姿态估计、物体描述和基于物体的问答等。实验结果证明了DINO-X的优越性能。具体来说,DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本物体检测基准上的AP分别为56.0、59.8和52.4。值得注意的是,它在LVIS-minival和LVIS-val基准的稀有类别上分别获得了63.3 AP和56.5 AP,均比之前的最先进性能提高了5.8 AP。这一结果强调了其显著改进的长尾物体识别能力。
提问交流