SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

简介

变形金刚（Transformer）架构在各种模型中占主导地位。作为变形金刚的核心，注意力（attention）的计算复杂度为O(N^2)，而线性变换的计算复杂度为O(N)。当处理大序列长度时，注意力成为主要的耗时组件。虽然量化已被证明是加速模型推理的有效方法，但现有的量化方法主要集中在优化线性层。因此，我们首先详细分析了注意力量化的可行性。在此基础上，我们提出了SageAttention，一种高效准确的注意力量化方法。我们的方法的OPS（每秒操作数）性能优于FlashAttention2和xformers分别约2.1倍和2.7倍。SageAttention在准确性能方面也优于FlashAttention3。全面的实验证实，我们的方法在包括大型语言处理、图像生成和视频生成在内的各种模型中，几乎没有端到端指标损失。
图表
解决问题

提出一种高效准确的注意力量化方法，以加速处理大序列长度的任务，解决注意力计算复杂度高的问题。
关键思路

提出SageAttention方法，针对注意力进行量化，实现高效准确的注意力计算。
其它亮点

SageAttention方法的OPS表现优于FlashAttention2和xformers，准确性表现优于FlashAttention3。实验结果表明，该方法在各种模型中几乎不会带来端到端指标损失。
相关研究

最近的相关研究包括FlashAttention和xformers等注意力量化方法的研究。