Transformer架构显著推进了自然语言处理(NLP)的发展,并成为开发大型语言模型(LLMs)的基础,如LLaMA和OPT,这些模型已经在广泛的NLP任务中占据主导地位。尽管它们具有更高的准确性,但LLMs在实际推断中面临着独特的挑战,涉及计算和内存密集型。由于LLM推断的自回归特性,Transformers中注意力层的KV缓存可以通过用线性复杂度的内存访问替换二次复杂度的计算来有效加速LLM推断。然而,这种方法需要随着处理更长序列的需求而增加内存。这种额外开销会导致由于I / O瓶颈甚至是内存不足错误而降低吞吐量,特别是在像单个商品GPU这样的资源受限系统上。在本文中,我们提出了ALISA,一种新的算法-系统共同设计解决方案,以解决KV缓存带来的挑战。在算法层面上,ALISA通过使用稀疏窗口注意力(SWA)算法优先考虑生成新标记最重要的标记。SWA在注意力层中引入高稀疏性,并在可忽略的准确性损失下减少了KV缓存的内存占用。在系统层面上,ALISA采用三阶段标记级动态调度,并优化缓存和重计算之间的权衡,从而在资源受限系统中最大化整体性能。在单个GPU-CPU系统中,我们证明在不同的工作负载下,ALISA将基线系统(如FlexGen和vLLM)的吞吐量分别提高了3倍和1.9倍。
提问交流