Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference

简介

越来越大的大型语言模型（LLMs）的尺寸挑战了它们在资源受限平台上的使用。例如，现代GPU的内存不足以容纳数百GB大小的LLMs。卸载是一种流行的方法，通过将LLM模型的权重存储到主机CPU内存和SSD中，然后在每次使用之前将每个权重加载到GPU中来避免这种限制。在我们的卸载推理案例研究中，我们发现由于存储设备和GPU之间的低带宽，从其卸载位置传输大型模型权重到GPU内存的延迟成为关键瓶颈，实际计算几乎不占运行时间的百分比。为了有效地减少权重传输延迟，我们提出了一种新颖的稀疏格式，将修剪的LLM权重的非结构化稀疏模式压缩为具有高压缩比和低解压开销的非零值。Endor通过使用位图表示非零元素的位置来实现这一目标。与使用流行的Huggingface Accelerate进行的卸载推理相比，应用Endor可以将OPT-66B加速1.70倍，将Llama2-70B加速1.78倍。当利用直接从SSD到GPU的权重传输时，Endor在OPT-66B上实现了2.25倍的加速，在Llama2-70B上实现了2.37倍的加速。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型语言模型在资源受限平台上的使用问题，探讨一种有效减少权重传输延迟的方法。
关键思路

论文提出一种基于稀疏格式的权重压缩方法，通过压缩稀疏模式的非零值，将权重存储在CPU内存和SSD中，在每次使用前将每个权重加载到GPU中，从而有效减少权重传输延迟。
其它亮点

论文通过实验验证了该方法的有效性，相比使用Huggingface Accelerate的离线推断，Endor在OPT-66B上实现了1.70倍的加速，Llama2-70B上实现了1.78倍的加速；并且在直接从SSD到GPU的权重传输中，Endor在OPT-66B上实现了2.25倍的加速，Llama2-70B上实现了2.37倍的加速。
相关研究

在该领域的相关研究中，最近的一些论文包括：《Training Deep Nets with Sublinear Memory Cost》、《Learning both Weights and Connections for Efficient Neural Networks》等。

Endor: Hardware-Friendly Sparse Format for Offloaded LLM Inference

提问交流

提问交流