CLIP-Embed-KD: Computationally Efficient Knowledge Distillation Using Embeddings as Teachers

2024年04月09日
  • 简介
    这篇论文展示了对比语言-图像预训练(CLIP)能够提高语言和视觉模型的零样本泛化能力。作者们扩展了CLIP,使用嵌入作为教师,实现高效的知识蒸馏。典型的知识蒸馏框架需要通过教师模型运行前向传递,但在亿级或万亿级参数的教师模型中,这通常是不可行的。在这些情况下,仅使用教师模型的嵌入来指导蒸馏可以节省大量计算资源。作者们的初步发现表明,使用嵌入的CLIP知识蒸馏可以在比完整规模知识蒸馏少9倍的内存和8倍的训练时间的情况下取得更好的效果。代码可在https://github.com/lnairGT/CLIP-Distillation/上找到。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在利用嵌入作为教师,将Contrastive Language-Image Pre-training(CLIP)扩展为高效知识蒸馏方法,以提高语言和视觉模型的零样本泛化能力。传统的知识蒸馏框架需要运行教师模型的前向传递,这在亿级或万亿级参数的教师模型中通常是不可行的,因此本文提出只使用教师模型的嵌入来指导蒸馏,可以显著减少计算量。
  • 关键思路
    本文提出了一种基于CLIP的知识蒸馏方法,使用教师模型的嵌入来指导蒸馏,从而提高语言和视觉模型的零样本泛化能力,同时减少计算量。
  • 其它亮点
    本文使用了CLIP模型作为教师模型进行知识蒸馏,并使用了CIFAR-10和ImageNet数据集进行实验,结果表明,与传统的知识蒸馏方法相比,本文提出的方法可以在减少训练时间和内存使用量的同时提高模型性能。此外,本文提供了开源代码。
  • 相关研究
    最近的相关研究包括使用嵌入进行知识蒸馏的方法和使用其他模型进行知识蒸馏的方法,如FitNets、Hinton的知识蒸馏等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问