- 简介在Class Incremental Object Detection (CIOD)领域,创建像人类一样可以持续学习的模型是一个重大挑战。虚标记方法虽然最初很强大,但由于其遗忘过去知识的倾向,它们在多场景增量学习中面临困难。为了克服这一问题,我们引入了一种新方法,称为Vision-Language Model assisted Pseudo-Labeling (VLM-PL)。该技术使用Vision-Language Model (VLM)来验证伪标注的正确性,而无需额外的模型训练。VLM-PL从预训练的检测器中导出伪标注。然后,我们使用精心设计的提示模板,结合图像和文本特征,为每个伪标注生成自定义查询。这使得VLM可以通过其响应来分类正确性。此外,VLM-PL将来自即将进行的训练的精炼伪标注和真实标注整合在一起,有效地结合了新旧知识。在Pascal VOC和MS COCO数据集上进行的广泛实验不仅突出了VLM-PL在多场景中的卓越表现,而且还阐明了它在双场景中的有效性,通过在两种情况下均取得最先进的结果。
- 图表
- 解决问题本论文旨在解决Class Incremental Object Detection(CIOD)中模型连续学习的问题,提出了一种新方法Vision-Language Model assisted Pseudo-Labeling(VLM-PL),通过结合视觉和语言模型来验证伪标签的正确性,从而避免遗忘过去知识的问题。
- 关键思路VLM-PL利用视觉和语言模型来验证伪标签的正确性,将新旧知识有效结合,解决了CIOD中模型连续学习的问题。
- 其它亮点论文通过实验验证了VLM-PL在Pascal VOC和MS COCO数据集上的优异表现,不仅在多场景下表现出色,而且在双场景下也取得了最先进的结果。此外,论文提供了数据集和代码的开源。
- 与本论文相关的研究包括:Incremental Object Detection: A Survey和Towards Robust Class Incremental Object Detection with Progressive Knowledge Expansion等。
沙发等你来抢
去评论

评论
沙发等你来抢