- 简介本文研究了基于视觉语言模型(VLM)的开放式词汇物体检测(OVD),用于检测超出预训练类别的新颖物体。以前的方法使用“正”伪标签和额外的“类”名称(例如袜子、iPod和鳄鱼)来提高检测器的泛化能力以扩展检测器的知识。为了在两个方面扩展以前的方法,我们提出了一种名为Retrieval-Augmented Losses and visual Features(RALF)的方法。我们的方法检索相关的“负”类别并增强损失函数。此外,视觉特征还使用类别的“语言化概念”进行增强,例如穿在脚上、手持音乐播放器和尖牙。具体而言,RALF由两个模块组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。RAL由两个损失构成,反映与负词汇的语义相似性。此外,RAF使用大型语言模型(LLM)的语言化概念增强视觉特征。我们在COCO和LVIS基准数据集上的实验证明了RALF的有效性。我们在COCO数据集的新类别上实现了高达3.4个box AP$_{50}^{\text{N}}$的改进,并在LVIS数据集上获得了3.6个mask AP$_{\text{r}}$的增益。代码可在https://github.com/mlvlab/RALF上获得。
- 图表
- 解决问题本论文旨在通过使用Retrieval-Augmented Losses and visual Features (RALF)方法,解决Open-vocabulary object detection (OVD)中检测新物体的问题。该方法使用'negative' pseudo-labels来提高检测器的泛化能力,并使用语言模型来扩展视觉特征。
- 关键思路RALF方法由Retrieval Augmented Losses (RAL)和Retrieval-Augmented visual Features (RAF)两个模块组成。RAL模块使用两个损失函数反映与负词汇的语义相似性。RAF模块使用大型语言模型的“口头化概念”来增强视觉特征。
- 其它亮点论文使用COCO和LVIS基准数据集进行实验,证明了RALF方法的有效性。在COCO数据集的新类别上,box AP50N提高了3.4,LVIS数据集的mask APr提高了3.6。研究者提供了开源代码。
- 在近期的相关研究中,也有一些使用语言模型来扩展视觉特征的方法,例如VQA和VL-BERT。此外,也有一些研究使用了负样本来增强检测器的泛化能力,例如NEG和MetaDet。
沙发等你来抢
去评论
评论
沙发等你来抢