Helix: Distributed Serving of Large Language Models via Max-Flow on Heterogeneous GPUs

简介

本文介绍了 Helix，这是一个分布式系统，用于在异构 GPU 集群上进行高吞吐量、低延迟的大型语言模型（LLM）服务。Helix 的一个关键思想是将 LLM 的推理计算在异构 GPU 和网络连接上，形式化为一个有向加权图的最大流问题，其中节点表示 GPU 实例，边通过它们的容量捕捉 GPU 和网络异构性。然后，Helix 使用混合整数线性规划（MILP）算法来发现高度优化的策略来服务 LLM。这种方法允许 Helix 共同优化模型放置和请求调度，这是异构 LLM 服务中高度交织的两个任务。我们在几个异构集群设置上进行了评估，从 24 到 42 个 GPU 节点，结果显示，与最佳现有方法相比，Helix 提高了服务吞吐量高达 2.7 倍，并将提示和解码延迟分别降低了 2.8 倍和 1.3 倍。
图表
解决问题

Helix: A Distributed System for High-Throughput Low-Latency Large Language Model Serving on Heterogeneous GPU Clusters
关键思路

使用最大流问题和混合整数线性规划算法来优化模型部署和请求调度，从而提高异构GPU群集上大型语言模型的服务吞吐量和降低延迟。
其它亮点

论文通过实验验证了Helix相比于现有方法能够提高服务吞吐量最多2.7倍，降低提示和解码延迟最多1.3倍和2.8倍；同时，论文还开源了代码。
相关研究

最近的相关研究包括：Megatron、GShard、Deepspeed等。