CHAI: Clustered Head Attention for Efficient LLM Inference

简介

大型语言模型（LLMs）已经改变了机器学习领域，其中参数数量达到数百亿个。然而，在推断时为这些模型提供服务既需要计算资源，又需要内存资源，一个请求可能需要多个GPU和数十GB的内存。多头自注意力是LLMs的关键组成部分之一，可以占据LLMs内存和计算要求的50%以上。我们观察到，不同头之间在注意哪些标记时存在很高的冗余性。基于这一洞察，我们提出了聚类自注意力（CHAI）。CHAI在运行时将具有高相关性的自注意力头合并在一起，从而减少内存和计算资源的使用。在我们的实验中，我们展示了CHAI能够在不需要任何微调的情况下，将存储K、V缓存的内存需求降低高达21.4%，推断时间延迟降低高达1.73倍。CHAI在3个不同的模型（即OPT-66B、LLAMA-7B、LLAMA-33B）和5个不同的评估数据集上，最大精度偏差为3.2%。
图表
解决问题

本论文旨在解决大型语言模型中多头注意力机制所带来的计算和内存开销问题，提出了一种名为Clustered Head Attention (CHAI)的方案。
关键思路

CHAI方案通过将高度相关的注意力头在运行时进行合并，从而减少内存和计算开销。
其它亮点

实验结果显示，CHAI不需要进行微调即可将存储K,V缓存的内存需求降低高达21.4％，推理时间延迟最多降低1.73倍。同时，CHAI在三种不同的模型（OPT-66B，LLAMA-7B，LLAMA-33B）和五个不同的评估数据集上的准确性最多只有3.2％的偏差。
相关研究

最近的相关研究包括使用剪枝技术来减少模型大小和计算开销，以及使用低秩近似和量化技术来减少模型大小和计算开销。其中一些研究的论文标题包括《Structured Pruning of Large Language Models》和《Quantizing Large Language Models without Significant Accuracy Loss》。

CHAI: Clustered Head Attention for Efficient LLM Inference

评论