Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection

2024年03月04日
  • 简介
    本文介绍了增量式视觉-语言目标检测(IVLOD)——一种新的学习任务,旨在增量式地适应经过预训练的视觉-语言目标检测模型(VLODMs)到各种专业领域,同时保留它们在广义领域的零样本泛化能力。为了解决这个新的挑战,我们提出了零干扰可重参数化适应(ZiRa),这是一种新的方法,引入了零干扰损失和重新参数化技术来解决IVLOD,而不会增加额外的推理成本或显著增加内存使用量。在COCO和ODinW-13数据集上进行的全面实验表明,ZiRa有效地保护了VLODM的零样本泛化能力,同时不断适应新的任务。具体而言,在ODinW-13数据集上训练后,ZiRa表现出优于CL-DETR和iDETR的性能,将零样本泛化能力提高了13.91和8.71个平均精度(AP)。
  • 图表
  • 解决问题
    本文提出了增量视觉语言目标检测(IVLOD)这一新的学习任务,旨在增量适应预训练的视觉语言目标检测模型(VLODM)到各种专业领域,同时保留它们在广义领域的零样本泛化能力。这是否是一个新问题?
  • 关键思路
    为了解决IVLOD这一新挑战,本文提出了零干扰可重参数化适应(ZiRa)方法,引入了零干扰损失和参数重组技术,以应对IVLOD而不会增加额外的推理成本或显著增加内存使用量。相比当前这个领域的研究状况,这篇论文的思路有什么新意?
  • 其它亮点
    本文的亮点包括:使用了COOC和ODinW-13数据集进行综合实验,证明ZiRa有效地保护了VLODM的零样本泛化能力,同时持续适应新任务。实验结果表明,经过ODinW-13数据集的训练后,ZiRa的性能优于CL-DETR和iDETR,将零样本泛化能力提高了13.91和8.71 AP。此外,本文还提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:CL-DETR和iDETR。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论