- 简介近年来,快速学习已成为增强视觉语言模型(VLM)如CLIP在特定领域下游任务中的有价值技术。现有研究主要关注设计各种提示学习形式,忽视了提示作为有效提取大型教师模型学习的潜力。本文引入了一种无监督的领域提示提取框架,旨在通过使用未标记的领域图像进行提示驱动的模仿,将大型教师模型的知识转移给轻量级目标模型。具体而言,我们的框架包括两个不同的阶段。在初始阶段,我们使用领域(少样本)标签预训练一个大型CLIP教师模型。在预训练之后,我们利用CLIP的独特分离模态特性,通过教师文本编码器仅预计算和存储文本特征作为类向量一次。在随后的阶段中,存储的类向量在教师和学生图像编码器之间共享,用于计算预测的logits。此外,我们通过KL散度对教师和学生模型的logits进行对齐,通过可学习的提示鼓励学生图像编码器生成与教师类似的概率分布。所提出的提示提取过程消除了对标记数据的依赖,使算法能够利用领域内大量未标记的图像。最后,我们利用训练良好的学生图像编码器和预存储的文本特征(类向量)进行推理。据我们所知,我们是第一个为CLIP执行无监督的领域特定提示驱动的知识提取,并建立教师和学生之间共享类向量的实用预存储机制。在11个数据集上的大量实验证明了我们方法的有效性。
- 图表
- 解决问题本文旨在通过使用无标签域图像进行prompt驱动的模仿,将大型teacher模型的知识传输到轻量级target模型中,从而提高视觉语言模型(VLMs)的性能。
- 关键思路本文提出了一种无监督的领域prompt蒸馏框架,通过使用无标签域图像进行prompt驱动的模仿,将大型teacher模型的知识传输到轻量级target模型中。该方法通过学习prompt来对齐teacher和student模型的logits,从而实现知识蒸馏。此外,本文还提出了一种实用的预存储机制,将文本特征作为共享类向量存储在teacher和student之间。
- 其它亮点本文的实验结果表明,该方法在11个数据集上均取得了良好的效果。此外,本文的方法不需要依赖有标签的数据,可以利用大量的无标签图像进行训练。同时,本文提出的预存储机制也是本文的一个亮点。本文的代码已经开源。
- 最近的相关研究包括使用prompt进行训练的方法以及知识蒸馏的研究。其中,与本文最相关的研究是CLIP模型的相关研究,如《Learning Transferable Visual Models From Natural Language Supervision》和《CLIP: Connecting Text and Images》。
沙发等你来抢
去评论
评论
沙发等你来抢