- 简介随着LLMs参数的扩展,fine-tune整个模型的计算成本变得不可承受。为了解决这个挑战,我们引入了一种PEFT方法,即Principal Singular values and Singular vectors Adaptation(PiSSA),它优化了一个显著减少的参数空间,同时实现或超越了全参数fine-tune的性能。PiSSA受Intrinsic SAID的启发,该方法表明预训练的超参数模型占据低内在维度的空间。因此,PiSSA通过两个可训练矩阵A和B的乘积加上一个残差矩阵$W^{res}$来表示模型中的矩阵W,以进行误差校正。使用SVD来分解W,利用W的主奇异值和向量来初始化A和B。残差奇异值和向量初始化残差矩阵$W^{res}$,在fine-tune期间保持冻结。值得注意的是,PiSSA与LoRA具有相同的架构。但是,LoRA通过两个矩阵A和B的乘积来近似Delta W,其中A初始化为高斯噪声,B初始化为零,而PiSSA使用原始矩阵W的主奇异值和向量来初始化A和B。PiSSA可以通过更改必要的部分并冻结“噪声”部分来更好地近似全参数fine-tune的结果。相比之下,LoRA冻结原始矩阵并更新“噪声”。这种区别使得PiSSA比LoRA更快地收敛,并在最终实现更好的性能。由于具有相同的架构,PiSSA继承了LoRA的许多优点,例如参数效率和与量化的兼容性。利用快速的SVD方法,PiSSA的初始化仅需要几秒钟,切换从LoRA到PiSSA的成本可以忽略不计。
- 图表
- 解决问题本论文旨在解决当参数数量增加时,fine-tuning整个模型的计算成本变得过高的问题,提出了一种PEFT方法,即PiSSA,通过优化显著减少的参数空间来实现fine-tuning,同时达到或超越全参数fine-tuning的性能。
- 关键思路PiSSA方法通过使用SVD对矩阵W进行分解,利用W的主奇异值和向量来初始化A和B,利用剩余奇异值和向量来初始化残差矩阵W^res,从而实现快速收敛和更好的性能。
- 其它亮点PiSSA方法与LoRA方法具有相同的架构,但是PiSSA通过使用主奇异值和向量来初始化A和B,从而更好地逼近全参数fine-tuning的结果,并且收敛速度更快。该方法还具有参数效率和量化兼容性等优点,初始化只需要几秒钟,实验使用了多个数据集。
- 最近的相关研究包括Intrinsic SAID和LoRA方法。
沙发等你来抢
去评论
评论
沙发等你来抢