- 简介Fine-tuning是将预训练的大型语言模型调整到特定任务的主要方法。随着模型规模和任务多样性的扩大,参数高效的fine-tuning方法至关重要。其中最常用的一类方法是低秩适应(LoRA)及其变体。LoRA将权重更新编码为两个低秩矩阵的乘积。尽管具有优点,但在某些任务的泛化误差方面,LoRA在全参数fine-tuning方面存在不足。我们引入了Chain of LoRA(COLA),这是一个受Frank-Wolfe算法启发的迭代优化框架,旨在弥补LoRA和全参数fine-tuning之间的差距,而不会产生额外的计算成本或内存开销。COLA采用残差学习过程,其中它将学习到的LoRA模块合并到预训练的语言模型参数中,并为新生的LoRA模块重新初始化优化。我们提供了理论收敛保证以及实证结果,以验证我们算法的有效性。在各种模型(OPT和llama-2)和七个基准任务中,我们证明COLA可以在不增加计算或内存成本的情况下始终优于LoRA。
-
- 图表
- 解决问题论文试图解决如何在不增加计算或内存成本的情况下,提高预训练语言模型的微调效果,以及在某些任务上超越现有的低秩适应方法。
- 关键思路论文提出了一种名为COLA的迭代优化框架,通过残差学习过程将学习到的低秩适应模块与预训练语言模型参数合并,并重新初始化优化以进行新的模块学习,从而在不增加计算或内存成本的情况下,提高预训练语言模型的微调效果。
- 其它亮点论文提供了理论收敛保证,并在多个模型和七个基准任务上进行了实验,证明了COLA在不增加计算或内存成本的情况下,能够始终优于LoRA。论文还提供了开源代码。
- 在最近的相关研究中,还有一些与本文相关的研究,如《Low-rank Bilinear Pooling for Fine-grained Classification》、《Low-rank factorization for compact neural network design》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流