Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning

简介

Fine-tuning是将预训练的大型语言模型调整到特定任务的主要方法。随着模型规模和任务多样性的扩大，参数高效的fine-tuning方法至关重要。其中最常用的一类方法是低秩适应（LoRA）及其变体。LoRA将权重更新编码为两个低秩矩阵的乘积。尽管具有优点，但在某些任务的泛化误差方面，LoRA在全参数fine-tuning方面存在不足。我们引入了Chain of LoRA（COLA），这是一个受Frank-Wolfe算法启发的迭代优化框架，旨在弥补LoRA和全参数fine-tuning之间的差距，而不会产生额外的计算成本或内存开销。COLA采用残差学习过程，其中它将学习到的LoRA模块合并到预训练的语言模型参数中，并为新生的LoRA模块重新初始化优化。我们提供了理论收敛保证以及实证结果，以验证我们算法的有效性。在各种模型（OPT和llama-2）和七个基准任务中，我们证明COLA可以在不增加计算或内存成本的情况下始终优于LoRA。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何在不增加计算或内存成本的情况下，提高预训练语言模型的微调效果，以及在某些任务上超越现有的低秩适应方法。
关键思路

论文提出了一种名为COLA的迭代优化框架，通过残差学习过程将学习到的低秩适应模块与预训练语言模型参数合并，并重新初始化优化以进行新的模块学习，从而在不增加计算或内存成本的情况下，提高预训练语言模型的微调效果。
其它亮点

论文提供了理论收敛保证，并在多个模型和七个基准任务上进行了实验，证明了COLA在不增加计算或内存成本的情况下，能够始终优于LoRA。论文还提供了开源代码。
相关研究

在最近的相关研究中，还有一些与本文相关的研究，如《Low-rank Bilinear Pooling for Fine-grained Classification》、《Low-rank factorization for compact neural network design》等。

Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning

提问交流

提问交流