LoRA vs Full Fine-tuning: An Illusion of Equivalence

简介

微调是将预训练大型语言模型适应于下游任务的关键范式。最近，诸如低秩适应（LoRA）等方法已被证明在各种任务中，通过大幅减少可训练参数的数量，能够达到完全微调模型的性能。即使在两种方法学习到同样准确的模型的情况下，它们的学习解决方案是否真的等价？我们通过分析模型权重矩阵的谱特性，研究不同的微调方法如何改变预训练模型。我们发现，完全微调和LoRA产生的权重矩阵的奇异值分解表现出非常不同的结构；此外，在测试超出适应任务分布的数据时，这些微调后的模型表现出不同的泛化行为。更具体地说，首先，我们发现使用LoRA训练的权重矩阵出现了新的、排名较高的奇异向量，我们称之为“入侵维度”。入侵维度在完全微调过程中不会出现。其次，我们发现尽管带有入侵维度的LoRA模型在目标任务上达到了与完全微调相当的性能，但它们作为预训练分布的模型变得更差，并且在顺序适应多个任务时表现得不够稳健。较高秩的、秩稳定的LoRA模型在执行相同任务时，即使性能与较低秩的LoRA模型相当，也更接近完全微调。这些结果表明，即使在微调分布上表现相同，使用LoRA和完全微调更新的模型访问了参数空间的不同部分。最后，我们探讨了为什么入侵维度会出现在LoRA微调模型中，为什么它们是不希望存在的，以及如何最小化它们的影响。
图表
解决问题

该论文探讨了在适应下游任务时，全量微调和低秩适应（LoRA）方法虽然在性能上相似，但它们的学习解决方案是否真正等价的问题。具体来说，研究了这两种方法如何改变预训练模型的权重矩阵，并分析了这些变化对模型泛化行为的影响。
关键思路

论文的关键思路是通过分析模型权重矩阵的谱特性，特别是奇异值分解，来揭示全量微调和LoRA之间的差异。研究发现，LoRA方法引入了新的高排名奇异向量（称为‘入侵维度’），而这些维度在全量微调中并不存在。此外，尽管LoRA模型在目标任务上的性能与全量微调相当，但在处理预训练分布之外的任务时表现较差，且在多任务连续适应时更不稳健。
其它亮点

1. 论文通过详细的实验设计，展示了LoRA和全量微调在模型权重矩阵上的不同结构变化。 2. 使用了多个数据集进行验证，包括但不限于GLUE、SuperGLUE等标准基准数据集。 3. 提出了‘入侵维度’的概念，并解释了其对模型性能的影响。 4. 提供了代码和模型，便于其他研究者复现实验结果。 5. 指出高秩、秩稳定的LoRA模型可以更好地模拟全量微调的效果，即使在性能相当的情况下也是如此。
相关研究

1. "Parameter-Efficient Transfer Learning for NLP" - 介绍了参数高效的迁移学习方法，为LoRA等技术奠定了基础。 2. "Adapters for Fine-Tuning Large Scale Language Models" - 探讨了适配器方法在微调大规模语言模型中的应用。 3. "BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Models" - 提出了一种简单的参数高效微调方法。 4. "P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks" - 研究了提示调优与全量微调的对比效果。 5. "Prefix-Tuning: Optimizing Continuous Prompts for Generation" - 探讨了前缀调优在生成任务中的应用。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论