Sparse High Rank Adapters

简介

LoRA已经在最近的生成AI研究中引起了广泛的关注。 LoRA的主要优点之一是其能够与预训练模型融合，在推理过程中不会增加额外的开销。然而，从移动部署的角度来看，我们可以在融合模式下避免推理开销，但失去快速切换适配器的能力，或者在未融合模式下遭受显着（高达30％）的推理延迟，同时启用快速切换。当同时使用多个适配器时，LoRA还表现出概念损失。在本文中，我们提出了Sparse High Rank Adapters（SHiRA），这是一种新的范例，不会产生推理开销，可以实现快速切换，并显著减少概念损失。具体而言，SHiRA可以通过直接调整仅占基本模型权重的1-2％来进行训练，同时保持其他权重不变。这导致高度稀疏的适配器，可以直接在融合模式下切换。我们进一步提供了理论和实证见解，说明SHiRA中高稀疏性如何通过减少概念损失有助于多适配器融合。我们在LVM和LLM上进行了大量实验，证明仅微调基本模型中的一小部分参数就足以完成许多任务，同时实现快速切换和多适配器融合。最后，我们基于Parameter-Efficient Finetuning（PEFT）库提供了一个延迟和内存高效的SHiRA实现。这个实现的训练速度几乎与LoRA相同，同时消耗更低的GPU内存，因此使SHiRA易于采用实际用例。
图表
解决问题

论文旨在解决Low Rank Adaptation (LoRA)在移动部署中存在的问题，如无法快速切换适配器和概念损失等，提出Sparse High Rank Adapters (SHiRA)来解决这些问题。
关键思路

SHiRA是一种新的范式，可以通过直接调整基础模型权重的1-2％来训练高度稀疏的适配器，从而实现无推理开销、快速切换和减少概念损失的效果。
其它亮点

论文通过实验验证了SHiRA的有效性，并提供了基于Parameter-Efficient Finetuning (PEFT) Library的高效实现，该实现训练速度与LoRA几乎相同，但GPU内存占用更低。
相关研究

在相关研究方面，论文提到了LoRA和其他一些适配器相关的研究，如Adapters、AdapterFusion和BlockSparse。

评论