- 简介本文研究了大型语言模型(LLMs)中注意力机制的效率问题。虽然现在的LLMs支持极长的上下文窗口,但是基础的注意力机制的平方复杂度导致了显著的Time-to-First-Token(TTFT)延迟。现有的解决方案需要额外的预训练或微调,并且通常会牺牲模型的准确性。本文提出了SampleAttention,一种自适应的结构化和近乎无损的稀疏注意力机制,通过动态捕捉运行时的头部特定稀疏模式来降低注意力机制的复杂度。SampleAttention关注一定比例的相邻标记以捕捉本地窗口模式,并采用两阶段的查询引导键值过滤方法来捕捉列条纹模式,从而自适应地选择一组最小的键值对,降低了计算开销。全面的评估表明,SampleAttention可以在现成的LLMs中无缝地替换基础的注意力机制,几乎不会损失准确性,并且将TTFT相对于FlashAttention降低了最多$2.42\times$。
- 图表
- 解决问题论文旨在解决长上下文窗口下的注意力机制复杂度问题,提出一种新的注意力机制SampleAttention,以降低Time-to-First-Token (TTFT)延迟。
- 关键思路SampleAttention是一种自适应的、结构化的、近乎无损的稀疏注意力机制,通过动态捕捉头部特定的稀疏模式来降低注意力机制的复杂度。
- 其它亮点论文通过理论和实证研究为近乎无损稀疏注意力机制提供了基础,提出了SampleAttention,可以在不牺牲模型准确性的情况下替换原始的注意力机制,并且可以将TTFT降低2.42倍。实验使用了多个数据集进行测试,结果表明SampleAttention可以取得很好的效果。
- 在相关研究方面,最近的一些研究包括《Reformer: The Efficient Transformer》、《Linformer: Self-Attention with Linear Complexity》等。
沙发等你来抢
去评论
评论
沙发等你来抢