- 简介本文介绍了增量式视觉-语言目标检测(IVLOD)——一种新的学习任务,旨在增量式地适应经过预训练的视觉-语言目标检测模型(VLODMs)到各种专业领域,同时保留它们在广义领域的零样本泛化能力。为了解决这个新的挑战,我们提出了零干扰可重参数化适应(ZiRa),这是一种新的方法,引入了零干扰损失和重新参数化技术来解决IVLOD,而不会增加额外的推理成本或显著增加内存使用量。在COCO和ODinW-13数据集上进行的全面实验表明,ZiRa有效地保护了VLODM的零样本泛化能力,同时不断适应新的任务。具体而言,在ODinW-13数据集上训练后,ZiRa表现出优于CL-DETR和iDETR的性能,将零样本泛化能力提高了13.91和8.71个平均精度(AP)。
- 图表
- 解决问题本文提出了增量视觉语言目标检测(IVLOD)这一新的学习任务,旨在增量适应预训练的视觉语言目标检测模型(VLODM)到各种专业领域,同时保留它们在广义领域的零样本泛化能力。这是否是一个新问题?
- 关键思路为了解决IVLOD这一新挑战,本文提出了零干扰可重参数化适应(ZiRa)方法,引入了零干扰损失和参数重组技术,以应对IVLOD而不会增加额外的推理成本或显著增加内存使用量。相比当前这个领域的研究状况,这篇论文的思路有什么新意?
- 其它亮点本文的亮点包括:使用了COOC和ODinW-13数据集进行综合实验,证明ZiRa有效地保护了VLODM的零样本泛化能力,同时持续适应新任务。实验结果表明,经过ODinW-13数据集的训练后,ZiRa的性能优于CL-DETR和iDETR,将零样本泛化能力提高了13.91和8.71 AP。此外,本文还提供了开源代码。
- 在这个领域中,最近的相关研究包括:CL-DETR和iDETR。
沙发等你来抢
去评论
评论
沙发等你来抢