Hyperbolic Learning with Synthetic Captions for Open-World Detection

2024年04月07日
  • 简介
    开放世界检测面临重大挑战,因为它需要使用对象类标签或自由形式的文本来检测任何对象。现有的相关工作通常使用大规模手动注释的标题数据集进行训练,这些数据集非常昂贵。相反,我们建议从视觉语言模型(VLM)中转移知识,以自动丰富开放词汇描述。具体而言,我们使用预训练的VLM引导密集的合成标题,以便在图像的不同区域提供丰富的描述,并将这些标题纳入训练新型检测器,以推广到新概念。为了减轻合成标题中产生幻觉的噪声,我们还提出了一种新颖的双曲视觉语言学习方法,以在视觉和标题嵌入之间建立层次结构。我们称我们的检测器为“HyperLearner”。我们在各种开放世界检测基准(COCO、LVIS、野外物体检测、RefCOCO)上进行了大量实验,结果表明,我们的模型在使用相同的主干时,始终优于现有的最先进方法,如GLIP、GLIPv2和Grounding DINO。
  • 图表
  • 解决问题
    本论文旨在解决开放世界检测中的对象识别问题,提出了一种使用视觉-语言模型来丰富开放词汇描述并训练新型检测器的方法。
  • 关键思路
    使用预训练的视觉-语言模型来生成密集的合成字幕,并将这些字幕加入训练集以训练新型检测器,同时采用双曲线视觉-语言学习方法来减少合成字幕中的噪声。
  • 其它亮点
    论文在多个开放世界检测基准数据集上进行了广泛实验,结果表明该模型在使用相同主干网络的情况下,相比现有的最先进方法(如GLIP、GLIPv2和Grounding DINO)表现更好。论文还开源了代码。
  • 相关研究
    与本文相关的研究包括:GLIP、GLIPv2和Grounding DINO等最先进的方法,以及使用视觉-语言模型进行对象检测的其他研究,如VSGNet和LXMERT。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论