MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

2024年06月21日
  • 简介
    稀疏注意力可以有效地缓解长文本情况下大型语言模型(LLMs)的显著内存和吞吐量需求。现有的方法通常采用均匀的稀疏注意力掩码,在不同的注意力头和输入长度之间应用相同的稀疏模式。然而,这种均匀的方法无法捕捉LLMs中固有的多样化注意力模式,忽略了它们不同的准确性-延迟权衡。为了解决这个挑战,我们提出了注意力混合(MoA),它自动为不同的头和层量身定制不同的稀疏注意力配置。MoA构建并导航各种注意力模式及其相对于输入序列长度的缩放规则的搜索空间。它对模型进行分析,评估潜在的配置,并确定最佳的稀疏注意力压缩计划。MoA适应不同的输入大小,揭示出一些注意力头将其焦点扩大以适应更长的序列,而其他头则一直集中于固定长度的局部上下文。实验表明,MoA在相同的平均注意力跨度下将有效上下文长度增加了3.9倍,将检索准确性在Vicuna-7B、Vicuna-13B和Llama3-8B模型上提高了1.5-7.1倍,超过了均匀注意力基准线。此外,MoA缩小了稀疏模型和密集模型之间的能力差距,将最大相对性能下降从9%-36%降低到5%以内,跨越了两个长上下文理解基准。MoA在单个GPU上为7B和13B密集模型实现了1.2-1.4倍的GPU内存减少,并将解码吞吐量提高了5.5-6.7倍,对性能影响很小。
  • 作者讲解
  • 图表
  • 解决问题
    提出一种自适应稀疏注意力机制,以减少大型语言模型在长上下文下的内存和计算需求。
  • 关键思路
    提出混合注意力(MoA)方法,自动为不同的注意力头和层定制不同的稀疏注意力配置,以适应它们的精度-延迟权衡。
  • 其它亮点
    MoA方法能够增加有效上下文长度3.9倍,提高检索准确性1.5-7.1倍,并将稀疏模型与密集模型之间的性能差距从9%-36%降至5%以内。同时,MoA能够在单个GPU上减少1.2-1.4倍的GPU内存占用,并将解码吞吐量提高5.5-6.7倍。
  • 相关研究
    与稀疏注意力相关的研究包括:《Sparse Transformer: Learning Sparsely Connected Neural Networks for Language Modeling》、《Generating Long Sequences with Sparse Transformers》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问