CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning

2024年07月22日
  • 简介
    随着Transformer和Vision-Language Models(VLMs)如CLIP的出现,大型预训练模型已成为增强连续学习场景性能的常见策略。这导致开发了许多提示策略,以有效地微调基于Transformer的模型,而不会陷入灾难性遗忘。然而,这些方法很难使模型专门化于与预训练明显偏离的领域,并保持其零-shot能力。在这项工作中,我们提出了一种新颖的方法——连续生成训练用于增量提示学习,以减轻遗忘并使VLM适应。该方法利用生成重放来使提示与任务对齐。我们还介绍了一种新的度量标准,用于评估CL基准测试中的零-shot能力。通过对不同领域的广泛实验,我们证明了我们的框架在适应新任务的同时改善了零-shot能力的有效性。进一步的分析表明,我们的方法可以弥合与联合提示调整之间的差距。代码库可在https://github.com/aimagelab/mammoth上获得。
  • 图表
  • 解决问题
    论文旨在解决在连续学习场景中使用大型预训练模型时,如何在避免灾难性遗忘的同时适应新任务并保留零样本能力的问题。
  • 关键思路
    论文提出了一种新的方法,即利用生成回放来对齐提示与任务,从而实现连续生成训练以增量式地学习。这种方法能够在适应新任务的同时提高零样本能力,与联合提示微调方法相比具有相似的性能。
  • 其它亮点
    论文提出了一种新的连续生成训练方法来适应新任务并提高零样本能力。实验表明,该方法在不同领域中具有良好的性能,并且能够在一定程度上弥合与联合提示微调方法之间的差距。此外,论文还引入了一种新的评估指标来评估CL基准测试中的零样本能力,并提供了开源代码。
  • 相关研究
    与本文相关的研究包括大型预训练模型的使用、避免灾难性遗忘的方法以及连续学习的方法。例如,CLIP、Elastic Weight Consolidation等方法都与本文密切相关。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论