PromptKD: Unsupervised Prompt Distillation for Vision-Language Models

2024年03月05日
  • 简介
    快速学习已成为增强视觉-语言模型(VLMs),如CLIP,在特定领域下游任务中的有价值技术。现有的研究主要集中于设计各种提示学习形式,忽略了提示作为有效提取大型教师模型知识的潜力。在本文中,我们介绍了一种无监督的领域提示提取框架,旨在通过使用未标记的领域图像进行提示驱动的模仿,将大型教师模型的知识转移到轻量级目标模型。具体而言,我们的框架由两个不同的阶段组成。在初始阶段,我们使用领域(少样本)标签预训练一个大型CLIP教师模型。在预训练之后,我们利用CLIP的独特解耦模态特性,通过教师文本编码器仅预先计算和存储文本特征作为类向量。在随后的阶段中,存储的类向量在教师和学生图像编码器之间共享,用于计算预测的对数几率。此外,我们通过KL散度对教师和学生模型的对数几率进行对齐,通过可学习的提示鼓励学生图像编码器生成与教师相似的概率分布。所提出的提示提取过程消除了对标记数据的依赖,使算法能够利用领域内大量未标记的图像。最后,训练有素的学生图像编码器和预先存储的文本特征(类向量)用于推理。据我们所知,我们是第一个为CLIP执行无监督的领域特定提示驱动知识提取,并建立文本特征作为教师和学生之间共享类向量的实用预存储机制。对11个数据集的广泛实验表明了我们方法的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在通过无监督领域特定提示蒸馏框架,将大型教师模型的知识转移到轻量级目标模型,以无标签领域图像为驱动的模仿来提高视觉语言模型(VLMs)的性能。
  • 关键思路
    该论文提出了一个两个阶段的框架,首先通过领域(few-shot)标签预先训练大型CLIP教师模型,然后利用CLIP的独特解耦模态特性,通过教师文本编码器预计算并存储文本特征作为类向量,共享存储的类向量用于计算预测的logits,通过KL散度对齐教师和学生模型的logits,通过可学习的提示鼓励学生图像编码器生成与教师相似的概率分布。
  • 其它亮点
    论文通过实验验证了该方法的有效性,使用了11个数据集进行了广泛的实验,并提供了开源代码。
  • 相关研究
    近期的相关研究包括Vision-Language模型的预训练和微调,以及领域特定的视觉语言模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问