LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design

2024年05月28日
  • 简介
    最近的文献发现,定制或进一步改进大型语言模型(LLMs)的有效方法是添加动态适配器,例如具有专家混合结构的低秩适配器(LoRA)。尽管这些动态适配器会产生适度的计算复杂度,但令人惊讶的是,它们会导致巨大的推理延迟开销,将解码速度减慢2.5倍以上。在本文中,我们分析了动态适配器的细粒度成本,并发现碎片化的CUDA内核调用是根本原因。因此,我们提出了LoRA-Switch,一种系统-算法共同设计的高效动态适配器架构。与大多数现有的动态结构采用逐层或逐块动态路由不同,LoRA-Switch引入了一种基于令牌的路由机制。它为每个令牌切换LoRA适配器和权重,并将它们合并到骨干中进行推理。为了提高效率,这种切换是使用经过优化的CUDA内核实现的,它一次性融合了所有LoRA适配器的合并操作。基于在常见基准测试上使用流行的开源LLMs的实验,我们的方法证明了与现有动态适配器相似的准确性改进,同时将解码延迟降低了2.4倍以上。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在添加动态适配器时,推理延迟过高的问题,提出了LoRA-Switch解决方案
  • 关键思路
    LoRA-Switch采用基于令牌的路由机制,通过优化CUDA内核实现动态适配器的高效推理
  • 其它亮点
    LoRA-Switch在保持准确性的同时,将解码延迟降低了2.4倍以上,实验结果表明其优于现有的动态适配器方案
  • 相关研究
    最近的相关研究包括使用动态路由机制的动态适配器方案,如DynamicConv和SparseMoE
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问