CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models

简介

连续学习（CL）旨在帮助深度神经网络学习新知识的同时保留已学知识。最近，具有强大泛化能力的预训练视觉语言模型，如CLIP，已经成为实用的CL候选者。然而，预训练和下游CL任务之间的领域不匹配需要在后者上微调CLIP。现有微调方法的确定性本质使它们忽略了跨模态的许多可能相互作用，并认为它们不适用于需要可靠不确定性估计的高风险CL任务。为了解决这些问题，我们的工作提出了概率微调的连续学习（CLAP）。CLAP在具有视觉引导文本特征的任务特定模块上开发概率建模，提供更可靠的CL微调。它通过利用CLIP的丰富预训练知识进行权重初始化和任务特定模块的分布正则化，进一步减轻了遗忘。与现有提示方法的多样性合作，CLAP可以超越主导的确定性微调方法，用于CL和CLIP。最后，我们研究了CLAP在CL设置中用于新数据检测和示例选择的优越不确定性估计能力。我们的代码可在\url{https://github.com/srvCodes/clap4clip}上获得。
图表
解决问题

本文旨在解决连续学习（CL）中的领域差异问题，提出了一种基于概率建模的连续学习方法CLAP，旨在提供更可靠的微调方法和不确定性估计。
关键思路

CLAP通过在任务特定模块上使用基于视觉引导的文本特征的概率建模，提供更可靠的微调方法和不确定性估计。它还利用CLIP的丰富预训练知识来初始化和分布正则化任务特定模块，以缓解遗忘问题。
其它亮点

CLAP在CLIP上的微调方法比现有的确定性微调方法更可靠，能够在新领域中实现更好的性能。此外，它还能够在CL设置中进行新数据检测和示例选择，具有更好的不确定性估计能力。作者在GitHub上公开了代码。
相关研究

最近的相关研究包括《Continual Learning with Deep Generative Replay》、《Continual Learning Through Synaptic Intelligence》等。

CLAP4CLIP: Continual Learning with Probabilistic Finetuning for Vision-Language Models

评论