LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design

简介

最近的文献发现，定制或进一步改进大型语言模型（LLMs）的有效方法是添加动态适配器，例如具有专家混合结构的低秩适配器（LoRA）。尽管这些动态适配器会产生适度的计算复杂度，但令人惊讶的是，它们会导致巨大的推理延迟开销，将解码速度减慢2.5倍以上。在本文中，我们分析了动态适配器的细粒度成本，并发现碎片化的CUDA内核调用是根本原因。因此，我们提出了LoRA-Switch，一种系统-算法共同设计的高效动态适配器架构。与大多数现有的动态结构采用逐层或逐块动态路由不同，LoRA-Switch引入了一种基于令牌的路由机制。它为每个令牌切换LoRA适配器和权重，并将它们合并到骨干中进行推理。为了提高效率，这种切换是使用经过优化的CUDA内核实现的，它一次性融合了所有LoRA适配器的合并操作。基于在常见基准测试上使用流行的开源LLMs的实验，我们的方法证明了与现有动态适配器相似的准确性改进，同时将解码延迟降低了2.4倍以上。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文试图解决在添加动态适配器时，推理延迟过高的问题，提出了LoRA-Switch解决方案

关键思路

LoRA-Switch采用基于令牌的路由机制，通过优化CUDA内核实现动态适配器的高效推理

其它亮点

LoRA-Switch在保持准确性的同时，将解码延迟降低了2.4倍以上，实验结果表明其优于现有的动态适配器方案

LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design

提问交流

提问交流