- 简介视觉-语言预训练模型在各种下游任务中取得了令人瞩目的表现。然而,它们庞大的模型大小阻碍了它们在计算资源有限的平台上的利用。我们发现,直接使用较小的预训练模型并在CLIP模型上应用基于幅度的剪枝会导致不灵活和表现劣势。最近的VLP压缩工作要么采用单模态压缩度量导致性能有限,要么涉及具有可学习掩码的昂贵掩码搜索过程。在本文中,我们首先提出了模块化剪枝误差(MoPE)度量,通过跨模态任务上的性能下降准确评估CLIP模块的重要性。利用MoPE度量,我们引入了一个统一的剪枝框架,适用于预训练和任务特定的微调压缩阶段。对于预训练,MoPE-CLIP有效地利用了来自教师模型的知识,显著降低了预训练成本,同时保持了强大的零-shot能力。对于微调,从宽到深的连续剪枝产生了高度竞争的任务特定模型。在两个阶段的广泛实验中,证明了MoPE度量的有效性,MoPE-CLIP优于先前的最先进的VLP压缩方法。
-
- 图表
- 解决问题本论文旨在解决视觉语言预训练模型在计算资源受限的平台上无法充分利用的问题,提出了一种模块化剪枝框架来压缩CLIP模型。
- 关键思路本论文提出了Module-wise Pruning Error (MoPE)度量方法,通过跨模态任务的性能下降来准确评估CLIP模块的重要性,使用MoPE度量方法,提出了适用于预训练和任务特定微调压缩阶段的统一剪枝框架。
- 其它亮点本论文的实验结果表明,MoPE-CLIP比以前的最先进的VLP压缩方法表现更好。在预训练阶段,MoPE-CLIP能够有效地利用教师模型的知识,显著降低预训练成本同时保持强大的零-shot能力。在微调阶段,从宽度到深度的连续剪枝产生了高度竞争力的任务特定模型。
- 最近在这个领域中,还有一些相关的研究,如《Distilling Task-Specific Knowledge from BERT into Simple Architectures》和《Quantifying Transfer in Transfer Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流