- 简介最近的文献发现,定制或进一步改进大型语言模型(LLMs)的有效方法是添加动态适配器,例如具有专家混合结构的低秩适配器(LoRA)。尽管这些动态适配器会产生适度的计算复杂度,但令人惊讶的是,它们会导致巨大的推理延迟开销,将解码速度减慢2.5倍以上。在本文中,我们分析了动态适配器的细粒度成本,并发现碎片化的CUDA内核调用是根本原因。因此,我们提出了LoRA-Switch,一种系统-算法共同设计的高效动态适配器架构。与大多数现有的动态结构采用逐层或逐块动态路由不同,LoRA-Switch引入了一种基于令牌的路由机制。它为每个令牌切换LoRA适配器和权重,并将它们合并到骨干中进行推理。为了提高效率,这种切换是使用经过优化的CUDA内核实现的,它一次性融合了所有LoRA适配器的合并操作。基于在常见基准测试上使用流行的开源LLMs的实验,我们的方法证明了与现有动态适配器相似的准确性改进,同时将解码延迟降低了2.4倍以上。
-
- 图表
- 解决问题论文试图解决在添加动态适配器时,推理延迟过高的问题,提出了LoRA-Switch解决方案
- 关键思路LoRA-Switch采用基于令牌的路由机制,通过优化CUDA内核实现动态适配器的高效推理
- 其它亮点LoRA-Switch在保持准确性的同时,将解码延迟降低了2.4倍以上,实验结果表明其优于现有的动态适配器方案
- 最近的相关研究包括使用动态路由机制的动态适配器方案,如DynamicConv和SparseMoE
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流