- 简介LoRA已经在最近的生成AI研究中引起了广泛的关注。 LoRA的主要优点之一是其能够与预训练模型融合,在推理过程中不会增加额外的开销。然而,从移动部署的角度来看,我们可以在融合模式下避免推理开销,但失去快速切换适配器的能力,或者在未融合模式下遭受显着(高达30%)的推理延迟,同时启用快速切换。当同时使用多个适配器时,LoRA还表现出概念损失。在本文中,我们提出了Sparse High Rank Adapters(SHiRA),这是一种新的范例,不会产生推理开销,可以实现快速切换,并显著减少概念损失。具体而言,SHiRA可以通过直接调整仅占基本模型权重的1-2%来进行训练,同时保持其他权重不变。这导致高度稀疏的适配器,可以直接在融合模式下切换。我们进一步提供了理论和实证见解,说明SHiRA中高稀疏性如何通过减少概念损失有助于多适配器融合。我们在LVM和LLM上进行了大量实验,证明仅微调基本模型中的一小部分参数就足以完成许多任务,同时实现快速切换和多适配器融合。最后,我们基于Parameter-Efficient Finetuning(PEFT)库提供了一个延迟和内存高效的SHiRA实现。这个实现的训练速度几乎与LoRA相同,同时消耗更低的GPU内存,因此使SHiRA易于采用实际用例。
- 图表
- 解决问题论文旨在解决Low Rank Adaptation (LoRA)在移动部署中存在的问题,如无法快速切换适配器和概念损失等,提出Sparse High Rank Adapters (SHiRA)来解决这些问题。
- 关键思路SHiRA是一种新的范式,可以通过直接调整基础模型权重的1-2%来训练高度稀疏的适配器,从而实现无推理开销、快速切换和减少概念损失的效果。
- 其它亮点论文通过实验验证了SHiRA的有效性,并提供了基于Parameter-Efficient Finetuning (PEFT) Library的高效实现,该实现训练速度与LoRA几乎相同,但GPU内存占用更低。
- 在相关研究方面,论文提到了LoRA和其他一些适配器相关的研究,如Adapters、AdapterFusion和BlockSparse。
沙发等你来抢
去评论
评论
沙发等你来抢