LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

简介

现有的方法通过利用视觉-语言模型（VLMs）如CLIP的强大的开放词汇识别能力来增强开放词汇目标检测。然而，出现了两个主要的挑战：（1）概念表示的不足，CLIP文本空间中的类别名称缺乏文本和视觉知识。（2）对基本类别的过度拟合倾向，在从VLM到检测器的转换过程中，开放词汇知识偏向于基本类别。为了解决这些挑战，我们提出了语言模型指导（LaMI）策略，它利用视觉概念之间的关系，并在一个简单而有效的DETR检测器中应用它们，称为LaMI-DETR。LaMI利用GPT构建视觉概念，并使用T5研究类别之间的视觉相似性。这些类别之间的关系可以改善概念表示并避免对基本类别的过度拟合。全面的实验证明了我们的方法在同样严格的环境中比现有方法表现更好，而且不依赖于外部训练资源。LaMI-DETR在OV-LVIS上实现了43.4的稀有盒子AP，超过了先前最佳的7.8的稀有盒子AP。
图表
解决问题

本文旨在解决开放词汇物体检测中的概念表示不足和过度拟合基础类别的问题，提出了一种名为LaMI的语言模型指导策略。
关键思路

LaMI利用GPT构建视觉概念，利用T5研究类别间的视觉相似性，从而改进概念表示并避免基础类别的过度拟合。
其它亮点

本文提出的LaMI-DETR在OV-LVIS数据集上取得了43.4的罕见盒子平均精度，比之前最好的结果高出7.8。实验结果表明，LaMI-DETR在同等严格的设置下优于现有方法，而且不依赖于外部训练资源。
相关研究

与本文相关的研究包括利用Vision-Language Model（VLM）提高开放词汇物体检测的方法，如CLIP。

LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

评论