DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

简介

在本文中，我们介绍了由IDEA研究院开发的DINO-X，这是目前开放世界物体检测性能最佳的统一物体中心视觉模型。DINO-X采用了与Grounding DINO 1.5相同的基于Transformer的编码器-解码器架构，以追求开放世界的物体级表示。为了使长尾物体检测更加容易，DINO-X扩展了其输入选项，支持文本提示、视觉提示和自定义提示。通过这些灵活的提示选项，我们开发了一个通用的物体提示，支持无提示的开放世界检测，使得无需用户提供任何提示即可检测图像中的任何物体。为了增强模型的核心定位能力，我们构建了一个包含超过1亿个高质量定位样本的大规模数据集，称为Grounding-100M，以提升模型的开放词汇检测性能。在如此大规模的定位数据集上进行预训练，导致了一个基础的物体级表示，这使得DINO-X能够整合多个感知头，同时支持多种物体感知和理解任务，包括检测、分割、姿态估计、物体描述和基于物体的问答等。实验结果证明了DINO-X的优越性能。具体来说，DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本物体检测基准上的AP分别为56.0、59.8和52.4。值得注意的是，它在LVIS-minival和LVIS-val基准的稀有类别上分别获得了63.3 AP和56.5 AP，均比之前的最先进性能提高了5.8 AP。这一结果强调了其显著改进的长尾物体识别能力。
图表
解决问题

该论文旨在解决开放世界中的长尾物体检测问题，提高模型对罕见类别的识别能力，这是一个在计算机视觉领域长期存在的挑战。
关键思路

DINO-X通过采用Transformer-based的编码器-解码器架构，并引入灵活的输入选项（如文本提示、视觉提示和自定义提示），开发了一种无需提示即可检测图像中任何对象的通用对象提示。此外，通过大规模的Grounding-100M数据集预训练，增强了模型的基础对象级表示，使其能够支持多种感知任务。
其它亮点

DINO-X在COCO、LVIS-minival和LVIS-val零样本检测基准上取得了显著的性能提升，特别是在罕见类别上的表现优于之前的最先进方法。该模型还支持多种感知任务，包括检测、分割、姿态估计、对象描述和基于对象的问答等。此外，论文提供了开源代码和预训练模型，便于后续研究。
相关研究

近年来，关于开放词汇检测和长尾分布的研究逐渐增多。例如，《Long-Tail Learning via Logit Adjustment》提出了通过调整logits来解决长尾分类问题；《OVANet: Open-Vocabulary Detection via Adaptive Prompting》则通过自适应提示来实现开放词汇检测。这些研究为DINO-X的发展提供了重要的参考和基础。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论