- 简介本文提出了一种称为Sparse High Rank Adapters (SHiRA)的方法,可以直接微调基础模型中1-2%的权重,同时保持其他权重不变,从而得到高度稀疏的适配器。这种高度稀疏性不会增加推理开销,在融合模式下可以直接快速切换,并且显著减少了多个适配器融合过程中的概念损失。我们在LVMs和LLMs上进行了广泛的实验,结果表明,在基础模型中微调仅1-2%的参数就足以完成许多适配器任务,并且明显优于低秩适应(LoRA)。我们还表明,SHiRA与先进的LoRA方法(如DoRA)是正交的,可以轻松地与现有技术相结合。
-
- 图表
- 解决问题本论文旨在提出Sparse High Rank Adapters (SHiRA)方法,通过直接微调基模型1-2%的权重,从而得到一个高度稀疏的适配器,以解决适配器融合时的概念丢失问题,并且不会带来推理开销。
- 关键思路SHiRA通过微调基模型的1-2%参数来得到高度稀疏的适配器,以减少适配器融合时的概念丢失,同时不会带来推理开销。
- 其它亮点论文使用了LVMs和LLMs数据集进行了广泛的实验,并且证明了仅微调基模型的1-2%参数就足以在很多适配器任务中得到很好的表现,并且优于Low Rank Adaptation (LoRA)方法。此外,SHiRA还可以与其他先进的适配器方法如DoRA相结合。
- 在这个领域中,还有一些相关的研究,如Low Rank Adaptation (LoRA)、DoRA等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流