MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

向作者提问

NEW

简介

由于注意力计算的二次复杂度，大型语言模型（LLM）推理的计算挑战仍然是它们普及应用的一个重要障碍，特别是随着提示长度的不断增加。在单个A100 GPU上，对于一个8B的LLM在预填充阶段处理1M个标记（即预填充阶段）需要30分钟。现有的加速预填充的方法在应用于长上下文LLM时通常无法保持可接受的准确性或效率。为了解决这一差距，我们介绍了MInference（Milliontokens Inference），一种稀疏计算方法，旨在加速长序列处理的预填充。具体而言，我们确定了长上下文注意力矩阵中的三种独特模式——A形、垂直斜杠和块稀疏，这些模式可以利用GPU上的高效稀疏计算。我们离线确定每个注意力头的最佳模式，并在推理过程中根据分配的模式动态构建稀疏索引。借助这些模式和稀疏索引，我们通过优化后的GPU内核执行高效的稀疏注意力计算，显著减少了长上下文LLM预填充阶段的延迟。我们的技术可以直接应用于现有的LLMs，无需对预训练设置进行任何修改或进行额外的微调。通过对一系列下游任务（包括InfiniteBench、RULER、PG-19和Needle In A Haystack）和模型（包括LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K和Qwen2-128K）进行评估，我们证明MInference可以在A100上将预填充的推理延迟缩短多达10倍，同时保持准确性。我们的代码可在https://aka.ms/MInference上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

论文旨在解决大型语言模型（LLM）推理的计算挑战，特别是在提示长度不断增加的情况下。如何加速预填充阶段是关键问题，现有方法往往难以在应用于长上下文LLM时保持可接受的准确性或效率。
关键思路

MInference是一种稀疏计算方法，旨在加速长序列处理的预填充。通过识别长上下文注意力矩阵中的三种独特模式，即A形状、垂直斜杠和块稀疏，可以在GPU上进行高效的稀疏计算，从而显著降低长上下文LLM的预填充阶段的延迟。
其它亮点

论文通过在多个下游任务和模型上进行评估，展示了MInference可以在不影响准确性的情况下，将A100上的预填充推理延迟降低了多达10倍。同时，该方法可以直接应用于现有的LLMs，无需修改预训练设置或进行额外的微调。论文还提供了代码开源。
相关研究

最近的相关研究包括使用稀疏注意力机制来加速LLM推理的方法，如Sparse Transformer和Linformer。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问