MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

2024年07月02日
  • 简介
    由于注意力计算的二次复杂度,大型语言模型(LLM)推理的计算挑战仍然是它们普及应用的一个重要障碍,特别是随着提示长度的不断增加。在单个A100 GPU上,对于一个8B的LLM在预填充阶段处理1M个标记(即预填充阶段)需要30分钟。现有的加速预填充的方法在应用于长上下文LLM时通常无法保持可接受的准确性或效率。为了解决这一差距,我们介绍了MInference(Milliontokens Inference),一种稀疏计算方法,旨在加速长序列处理的预填充。具体而言,我们确定了长上下文注意力矩阵中的三种独特模式——A形、垂直斜杠和块稀疏,这些模式可以利用GPU上的高效稀疏计算。我们离线确定每个注意力头的最佳模式,并在推理过程中根据分配的模式动态构建稀疏索引。借助这些模式和稀疏索引,我们通过优化后的GPU内核执行高效的稀疏注意力计算,显著减少了长上下文LLM预填充阶段的延迟。我们的技术可以直接应用于现有的LLMs,无需对预训练设置进行任何修改或进行额外的微调。通过对一系列下游任务(包括InfiniteBench、RULER、PG-19和Needle In A Haystack)和模型(包括LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K和Qwen2-128K)进行评估,我们证明MInference可以在A100上将预填充的推理延迟缩短多达10倍,同时保持准确性。我们的代码可在https://aka.ms/MInference上获得。
  • 作者讲解
  • 解决问题
    论文旨在解决大型语言模型(LLM)推理的计算挑战,特别是在提示长度不断增加的情况下。如何加速预填充阶段是关键问题,现有方法往往难以在应用于长上下文LLM时保持可接受的准确性或效率。
  • 关键思路
    MInference是一种稀疏计算方法,旨在加速长序列处理的预填充。通过识别长上下文注意力矩阵中的三种独特模式,即A形状、垂直斜杠和块稀疏,可以在GPU上进行高效的稀疏计算,从而显著降低长上下文LLM的预填充阶段的延迟。
  • 其它亮点
    论文通过在多个下游任务和模型上进行评估,展示了MInference可以在不影响准确性的情况下,将A100上的预填充推理延迟降低了多达10倍。同时,该方法可以直接应用于现有的LLMs,无需修改预训练设置或进行额外的微调。论文还提供了代码开源。
  • 相关研究
    最近的相关研究包括使用稀疏注意力机制来加速LLM推理的方法,如Sparse Transformer和Linformer。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问