ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference

简介

本文介绍了ExeGPT，这是一种分布式系统，旨在进行约束感知的LLM推理。ExeGPT通过找到并运行最佳执行计划，以最大化推理吞吐量，同时满足给定的延迟约束。通过利用输入和输出序列的分布，它有效地分配资源并确定最佳的执行配置，包括批量大小和部分张量并行性。我们还介绍了两种基于循环分配和工作负载感知分配策略的调度策略，适用于不同的NLP工作负载。我们对T5、OPT和GPT-3的六个LLM实例和五个NLP任务进行了ExeGPT评估，每个任务都有四个不同的延迟约束。与FasterTransformer相比，ExeGPT在吞吐量上实现了高达15.2倍的提升和6倍的延迟改善。总体而言，在二十个评估场景中，ExeGPT实现了平均吞吐量增益2.9倍。此外，当适应不同的序列分布时，ExeGPT调整调度的成本相对较低。ExeGPT证明是一种有效的解决方案，用于优化和执行各种NLP工作负载和服务条件的LLM推理。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

ExeGPT旨在解决带有约束的LLM推理的最优执行调度问题，以达到最大化推理吞吐量并满足给定延迟约束的目的。
关键思路

ExeGPT通过利用输入和输出序列的分布，有效地分配资源和确定最佳执行配置，包括批量大小和部分张量并行性，从而找到并运行最佳执行调度。
其它亮点

论文在六个LLM实例和五个NLP任务上进行了评估，与FasterTransformer相比，ExeGPT在吞吐量上实现了高达15.2倍的改进和6倍的延迟改进。ExeGPT在二十个评估场景中平均吞吐量提高了2.9倍。论文还介绍了两种基于轮流分配和工作负载感知分配策略的调度策略。
相关研究

与该论文相关的研究包括FasterTransformer、Megatron和GShard等。

ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference

提问交流

提问交流