快速学习已成为增强视觉-语言模型(VLMs),如CLIP,在特定领域下游任务中的有价值技术。现有的研究主要集中于设计各种提示学习形式,忽略了提示作为有效提取大型教师模型知识的潜力。在本文中,我们介绍了一种无监督的领域提示提取框架,旨在通过使用未标记的领域图像进行提示驱动的模仿,将大型教师模型的知识转移到轻量级目标模型。具体而言,我们的框架由两个不同的阶段组成。在初始阶段,我们使用领域(少样本)标签预训练一个大型CLIP教师模型。在预训练之后,我们利用CLIP的独特解耦模态特性,通过教师文本编码器仅预先计算和存储文本特征作为类向量。在随后的阶段中,存储的类向量在教师和学生图像编码器之间共享,用于计算预测的对数几率。此外,我们通过KL散度对教师和学生模型的对数几率进行对齐,通过可学习的提示鼓励学生图像编码器生成与教师相似的概率分布。所提出的提示提取过程消除了对标记数据的依赖,使算法能够利用领域内大量未标记的图像。最后,训练有素的学生图像编码器和预先存储的文本特征(类向量)用于推理。据我们所知,我们是第一个为CLIP执行无监督的领域特定提示驱动知识提取,并建立文本特征作为教师和学生之间共享类向量的实用预存储机制。对11个数据集的广泛实验表明了我们方法的有效性。
提问交流