PromptKD: Unsupervised Prompt Distillation for Vision-Language Models

简介

快速学习已成为增强视觉-语言模型（VLMs），如CLIP，在特定领域下游任务中的有价值技术。现有的研究主要集中于设计各种提示学习形式，忽略了提示作为有效提取大型教师模型知识的潜力。在本文中，我们介绍了一种无监督的领域提示提取框架，旨在通过使用未标记的领域图像进行提示驱动的模仿，将大型教师模型的知识转移到轻量级目标模型。具体而言，我们的框架由两个不同的阶段组成。在初始阶段，我们使用领域（少样本）标签预训练一个大型CLIP教师模型。在预训练之后，我们利用CLIP的独特解耦模态特性，通过教师文本编码器仅预先计算和存储文本特征作为类向量。在随后的阶段中，存储的类向量在教师和学生图像编码器之间共享，用于计算预测的对数几率。此外，我们通过KL散度对教师和学生模型的对数几率进行对齐，通过可学习的提示鼓励学生图像编码器生成与教师相似的概率分布。所提出的提示提取过程消除了对标记数据的依赖，使算法能够利用领域内大量未标记的图像。最后，训练有素的学生图像编码器和预先存储的文本特征（类向量）用于推理。据我们所知，我们是第一个为CLIP执行无监督的领域特定提示驱动知识提取，并建立文本特征作为教师和学生之间共享类向量的实用预存储机制。对11个数据集的广泛实验表明了我们方法的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过无监督领域特定提示蒸馏框架，将大型教师模型的知识转移到轻量级目标模型，以无标签领域图像为驱动的模仿来提高视觉语言模型（VLMs）的性能。
关键思路

该论文提出了一个两个阶段的框架，首先通过领域（few-shot）标签预先训练大型CLIP教师模型，然后利用CLIP的独特解耦模态特性，通过教师文本编码器预计算并存储文本特征作为类向量，共享存储的类向量用于计算预测的logits，通过KL散度对齐教师和学生模型的logits，通过可学习的提示鼓励学生图像编码器生成与教师相似的概率分布。
其它亮点

论文通过实验验证了该方法的有效性，使用了11个数据集进行了广泛的实验，并提供了开源代码。
相关研究

近期的相关研究包括Vision-Language模型的预训练和微调，以及领域特定的视觉语言模型。

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models

提问交流

提问交流