SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

2024年10月03日
  • 简介
    变形金刚(Transformer)架构在各种模型中占主导地位。作为变形金刚的核心,注意力(attention)的计算复杂度为O(N^2),而线性变换的计算复杂度为O(N)。当处理大序列长度时,注意力成为主要的耗时组件。虽然量化已被证明是加速模型推理的有效方法,但现有的量化方法主要集中在优化线性层。因此,我们首先详细分析了注意力量化的可行性。在此基础上,我们提出了SageAttention,一种高效准确的注意力量化方法。我们的方法的OPS(每秒操作数)性能优于FlashAttention2和xformers分别约2.1倍和2.7倍。SageAttention在准确性能方面也优于FlashAttention3。全面的实验证实,我们的方法在包括大型语言处理、图像生成和视频生成在内的各种模型中,几乎没有端到端指标损失。
  • 图表
  • 解决问题
    提出一种高效准确的注意力量化方法,以加速处理大序列长度的任务,解决注意力计算复杂度高的问题。
  • 关键思路
    提出SageAttention方法,针对注意力进行量化,实现高效准确的注意力计算。
  • 其它亮点
    SageAttention方法的OPS表现优于FlashAttention2和xformers,准确性表现优于FlashAttention3。实验结果表明,该方法在各种模型中几乎不会带来端到端指标损失。
  • 相关研究
    最近的相关研究包括FlashAttention和xformers等注意力量化方法的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论