Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection

简介

本文介绍了增量式视觉-语言目标检测（IVLOD）——一种新的学习任务，旨在增量式地适应经过预训练的视觉-语言目标检测模型（VLODMs）到各种专业领域，同时保留它们在广义领域的零样本泛化能力。为了解决这个新的挑战，我们提出了零干扰可重参数化适应（ZiRa），这是一种新的方法，引入了零干扰损失和重新参数化技术来解决IVLOD，而不会增加额外的推理成本或显著增加内存使用量。在COCO和ODinW-13数据集上进行的全面实验表明，ZiRa有效地保护了VLODM的零样本泛化能力，同时不断适应新的任务。具体而言，在ODinW-13数据集上训练后，ZiRa表现出优于CL-DETR和iDETR的性能，将零样本泛化能力提高了13.91和8.71个平均精度（AP）。
图表
解决问题

本文提出了增量视觉语言目标检测（IVLOD）这一新的学习任务，旨在增量适应预训练的视觉语言目标检测模型（VLODM）到各种专业领域，同时保留它们在广义领域的零样本泛化能力。这是否是一个新问题？
关键思路

为了解决IVLOD这一新挑战，本文提出了零干扰可重参数化适应（ZiRa）方法，引入了零干扰损失和参数重组技术，以应对IVLOD而不会增加额外的推理成本或显著增加内存使用量。相比当前这个领域的研究状况，这篇论文的思路有什么新意？
其它亮点

本文的亮点包括：使用了COOC和ODinW-13数据集进行综合实验，证明ZiRa有效地保护了VLODM的零样本泛化能力，同时持续适应新任务。实验结果表明，经过ODinW-13数据集的训练后，ZiRa的性能优于CL-DETR和iDETR，将零样本泛化能力提高了13.91和8.71 AP。此外，本文还提供了开源代码。
相关研究

在这个领域中，最近的相关研究包括：CL-DETR和iDETR。

Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection

评论