PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation

简介

低秩适应（LoRA）是一种突出的方法，它在冻结的预训练权重中添加少量可学习参数以实现参数高效的微调。在问到“我们能否在微调的最后阶段仅使用LoRA权重使其表示足够，而不需要预训练权重？”的问题后，本文引入了渐进式压缩LoRA（PC-LoRA）方法，该方法利用低秩适应（LoRA）同时进行模型压缩和微调。PC-LoRA方法在训练过程中逐步删除预训练权重，最终只剩下低秩适配器。因此，这些低秩适配器取代了整个预训练权重，同时实现了压缩和微调的目标。在各种模型上的实证分析表明，PC-LoRA实现了视觉模型（如ViT-B）的参数和FLOPs压缩率为94.36％/89.1％，语言模型（如BERT）的参数和FLOPs压缩率为93.42％/84.2％。
图表
解决问题

本文提出了一种名为Progressive Compression LoRA（PC-LoRA）的方法，旨在同时进行模型压缩和微调。该方法试图回答的问题是：是否可以仅在微调的最终阶段使用LoRA权重来代替预训练权重？
关键思路

PC-LoRA方法通过逐步移除预训练权重，最终仅留下低秩适配器，从而实现了压缩和微调的目标。相比当前领域的研究，该方法的关键思路是将LoRA权重应用于模型压缩和微调的同时。
其它亮点

本文的实验结果表明，PC-LoRA方法在各种模型上都实现了参数和FLOPs的压缩，如ViT-B和BERT等。同时，本文还开源了代码，提供了数据集和实验设计的详细信息，值得深入研究。
相关研究

在这个领域中，最近的相关研究包括：《Low-rank Compression for Neural Machine Translation》、《Model Compression with Low Rank and Sparse Structure》等。

PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation

评论