ALISA: Accelerating Large Language Model Inference via Sparsity-Aware KV Caching

2024年03月26日
  • 简介
    Transformer架构显著推进了自然语言处理(NLP)的发展,并成为开发大型语言模型(LLMs)的基础,如LLaMA和OPT,这些模型已经在广泛的NLP任务中占据主导地位。尽管它们具有更高的准确性,但LLMs在实际推断中面临着独特的挑战,涉及计算和内存密集型。由于LLM推断的自回归特性,Transformers中注意力层的KV缓存可以通过用线性复杂度的内存访问替换二次复杂度的计算来有效加速LLM推断。然而,这种方法需要随着处理更长序列的需求而增加内存。这种额外开销会导致由于I / O瓶颈甚至是内存不足错误而降低吞吐量,特别是在像单个商品GPU这样的资源受限系统上。在本文中,我们提出了ALISA,一种新的算法-系统共同设计解决方案,以解决KV缓存带来的挑战。在算法层面上,ALISA通过使用稀疏窗口注意力(SWA)算法优先考虑生成新标记最重要的标记。SWA在注意力层中引入高稀疏性,并在可忽略的准确性损失下减少了KV缓存的内存占用。在系统层面上,ALISA采用三阶段标记级动态调度,并优化缓存和重计算之间的权衡,从而在资源受限系统中最大化整体性能。在单个GPU-CPU系统中,我们证明在不同的工作负载下,ALISA将基线系统(如FlexGen和vLLM)的吞吐量分别提高了3倍和1.9倍。
  • 图表
  • 解决问题
    解决LLM推理中KV缓存带来的计算和内存压力问题,特别是对于资源受限的系统,如单个GPU。
  • 关键思路
    提出了一种算法-系统协同设计的解决方案ALISA,其中算法层面采用了Sparse Window Attention(SWA)算法,引入高稀疏性,减少KV缓存的内存占用,并在可接受的精度损失下优化了缓存和重新计算之间的权衡;系统层面采用了三阶段的令牌级动态调度,进一步优化了性能。
  • 其它亮点
    ALISA在单个GPU-CPU系统中,相对于FlexGen和vLLM等基线系统,可以将吞吐量提高3倍和1.9倍,实验结果表明其在资源受限的系统中具有良好的性能表现。
  • 相关研究
    最近的相关研究包括GShard、Megatron、Turing-NLG等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论