Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers

2024年05月17日
  • 简介
    基于Transformer的模型已成为自然语言处理、自然语言生成和图像生成等领域中最常用的架构之一。最先进的模型大小不断增加,达到了数十亿个参数。这些巨大的模型需要大量内存,即使在最先进的AI加速器(如GPU)上,也需要承受显著的推断延迟。具体而言,注意力操作的时间和内存复杂度与总上下文长度(即提示和输出令牌)的平方成正比。因此,为了满足依赖于这些大型模型的应用的低延迟需求,提出了多种优化技术,如键值张量缓存和FlashAttention计算。然而,这些技术并不能满足推断过程中不同阶段的计算差异性。因此,我们提出了LeanAttention,一种可扩展的技术,用于计算仅解码器Transformer模型的令牌生成阶段(解码阶段)的自注意力。通过重新设计解码阶段的执行流程,LeanAttention实现了自注意力机制的可扩展性,使其能够应对长上下文长度的挑战。我们发现,在线softmax的关联性质可以被视为一种约简操作,从而使我们能够在这些大上下文长度上并行计算注意力。我们将瓦片式计算的“流K”样式约简扩展到自注意力,从而实现了并行计算,使注意力执行速度平均提高了2.6倍,FlashAttention-2的速度提高了8.33倍,适用于512k上下文长度。
  • 图表
  • 解决问题
    论文旨在解决transformer模型中attention机制计算复杂度高、内存占用大、推理时间长的问题,提出了一种针对decoder-only transformer模型decode-phase阶段的可扩展的self-attention计算技术。
  • 关键思路
    LeanAttention通过重新设计decode-phase的执行流程,将在线softmax的关联性质视为一个约减操作,从而使我们能够将attention计算并行化,从而实现对长上下文长度的attention机制的扩展。
  • 其它亮点
    论文使用了多个数据集进行实验,并且与现有的优化技术进行了比较,结果表明LeanAttention的平均attention执行速度比FlashAttention-2提高了2.6倍,对于512k上下文长度可以提高高达8.33倍的速度。值得注意的是,这种技术只适用于decoder-only transformer模型的decode-phase阶段。
  • 相关研究
    在最近的相关研究中,也有一些关于transformer模型的优化技术,比如key-value tensor caching和FlashAttention计算等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论