- 简介微调是将预训练大型语言模型适应于下游任务的关键范式。最近,诸如低秩适应(LoRA)等方法已被证明在各种任务中,通过大幅减少可训练参数的数量,能够达到完全微调模型的性能。即使在两种方法学习到同样准确的模型的情况下,它们的学习解决方案是否真的等价?我们通过分析模型权重矩阵的谱特性,研究不同的微调方法如何改变预训练模型。我们发现,完全微调和LoRA产生的权重矩阵的奇异值分解表现出非常不同的结构;此外,在测试超出适应任务分布的数据时,这些微调后的模型表现出不同的泛化行为。更具体地说,首先,我们发现使用LoRA训练的权重矩阵出现了新的、排名较高的奇异向量,我们称之为“入侵维度”。入侵维度在完全微调过程中不会出现。其次,我们发现尽管带有入侵维度的LoRA模型在目标任务上达到了与完全微调相当的性能,但它们作为预训练分布的模型变得更差,并且在顺序适应多个任务时表现得不够稳健。较高秩的、秩稳定的LoRA模型在执行相同任务时,即使性能与较低秩的LoRA模型相当,也更接近完全微调。这些结果表明,即使在微调分布上表现相同,使用LoRA和完全微调更新的模型访问了参数空间的不同部分。最后,我们探讨了为什么入侵维度会出现在LoRA微调模型中,为什么它们是不希望存在的,以及如何最小化它们的影响。
- 图表
- 解决问题该论文探讨了在适应下游任务时,全量微调和低秩适应(LoRA)方法虽然在性能上相似,但它们的学习解决方案是否真正等价的问题。具体来说,研究了这两种方法如何改变预训练模型的权重矩阵,并分析了这些变化对模型泛化行为的影响。
- 关键思路论文的关键思路是通过分析模型权重矩阵的谱特性,特别是奇异值分解,来揭示全量微调和LoRA之间的差异。研究发现,LoRA方法引入了新的高排名奇异向量(称为‘入侵维度’),而这些维度在全量微调中并不存在。此外,尽管LoRA模型在目标任务上的性能与全量微调相当,但在处理预训练分布之外的任务时表现较差,且在多任务连续适应时更不稳健。
- 其它亮点1. 论文通过详细的实验设计,展示了LoRA和全量微调在模型权重矩阵上的不同结构变化。 2. 使用了多个数据集进行验证,包括但不限于GLUE、SuperGLUE等标准基准数据集。 3. 提出了‘入侵维度’的概念,并解释了其对模型性能的影响。 4. 提供了代码和模型,便于其他研究者复现实验结果。 5. 指出高秩、秩稳定的LoRA模型可以更好地模拟全量微调的效果,即使在性能相当的情况下也是如此。
- 1. "Parameter-Efficient Transfer Learning for NLP" - 介绍了参数高效的迁移学习方法,为LoRA等技术奠定了基础。 2. "Adapters for Fine-Tuning Large Scale Language Models" - 探讨了适配器方法在微调大规模语言模型中的应用。 3. "BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Models" - 提出了一种简单的参数高效微调方法。 4. "P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks" - 研究了提示调优与全量微调的对比效果。 5. "Prefix-Tuning: Optimizing Continuous Prompts for Generation" - 探讨了前缀调优在生成任务中的应用。
沙发等你来抢
去评论
评论
沙发等你来抢