A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene

2024年04月17日
  • 简介
    本文介绍了预训练的视觉-语言(V-L)模型(如CLIP)在许多跨模态下游任务中表现出的出色性能。然而,大多数模型仅适用于英语环境。随后的研究集中于解决这个问题,提出了改进的模型(如CN-CLIP和AltCLIP),以便使它们适用于中文甚至其他语言。然而,这些模型在推理过程中存在高延迟和大内存占用,限制了它们在资源受限的边缘设备上的进一步部署。因此,本文提出了一个概念上简单但有效的多语言CLIP压缩框架,并训练了一个轻量级的多语言视觉-语言模型DC-CLIP,用于中文和英文环境。在这个框架中,我们收集了高质量的中英文文本-图像对,并设计了两个训练阶段,包括多语言视觉-语言特征蒸馏和对齐。在第一阶段中,设计轻量级的图像/文本学生模型,分别从对应的教师模型中学习强大的视觉/多语言文本特征表示能力。随后,多语言视觉-语言对齐阶段实现了视觉和多语言文本特征的有效对齐,进一步提高了模型的多语言性能。基于ELEVATER基准的零样本图像分类的全面实验表明,与类似参数量的现有模型相比,DC-CLIP在英文环境中实现了卓越的性能,在中文环境中表现出有竞争力的性能,即使使用更少的训练数据。评估结果证明了我们设计的训练机制的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决现有V-L模型只适用于英语语境的问题,提出了一种多语言CLIP压缩框架和轻量级多语言视觉语言模型DC-CLIP,以适用于中英文语境,并解决在资源受限的边缘设备上推理时的高延迟和大内存占用问题。
  • 关键思路
    该论文提出了一个两阶段的训练框架,包括多语言视觉语言特征蒸馏和对齐,通过轻量级的学生模型从相应的教师模型中学习视觉和多语言文本特征表示能力,并通过对齐视觉和多语言文本特征来进一步提高模型的多语言性能。
  • 其它亮点
    该论文在ELEVATER基准测试中进行了全面的实验,展示了DC-CLIP在英语语境下具有卓越的性能,在中文语境下具有竞争力的性能,即使使用较少的训练数据,与类似参数规模的现有模型相比。该论文的亮点包括提出了一个新的多语言CLIP压缩框架和一个轻量级的多语言视觉语言模型,解决了现有模型只适用于英语语境的问题,并在资源受限的边缘设备上推理时具有低延迟和小内存占用的特点。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,如:《CN-CLIP: A Large-Scale Cls-Localization Framework for Chinese Vision-Language Pre-Training》、《AltCLIP: Improving Vision-Language Pre-Training by Alternating Between Intra- and Cross-Modal Contrastive Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问