One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving

简介

大型语言模型（LLMs）已成为云提供商为企业和消费者应用程序提供服务的越来越重要的工作负载。这些应用程序的LLM推理请求具有必须在生产环境中遵守的端到端延迟SLO。然而，现有的LLM服务系统专注于优化目标，如请求服务吞吐量或请求执行延迟，而不是端到端延迟SLO。由于突发到达率和资源不足导致的请求队列中的头部阻塞，实现对延迟敏感的请求的端到端SLO是具有挑战性的。为了解决上述挑战，我们提出了QLM，一种用于LLM服务的多模型队列管理框架。QLM使用随机编程来编排多个LLM服务操作（LSO）的操作，以减少头部阻塞并最大化SLO的达成。具体而言，QLM使用以下LSO：模型交换，请求清除，GPU-CPU状态交换，负载平衡和热模型启动。在异构GPU设备和具有真实世界LLM服务数据集的模型上进行评估表明，与其他最先进的LLM服务系统相比，QLM将SLO的达成率提高了40-90％，吞吐量提高了20-400％，同时保持或提高设备利用率。
图表
解决问题

解决LLM serving系统中存在的请求排队中的头部阻塞问题，以满足端到端延迟SLO。
关键思路

提出了一个名为QLM的多模型队列管理框架，使用随机规划来协调多个LLM服务操作以减少头部阻塞并最大化SLO的实现。
其它亮点

QLM使用模型交换、请求驱逐、GPU-CPU状态交换、负载均衡和热模型启动等操作，实验结果表明QLM相比其他现有的LLM serving系统，在维持或提高设备利用率的同时，可以将SLO的实现提高40-90%，吞吐量提高20-400%。
相关研究

最近的相关研究包括：《Deep Learning Inference in Facebook Data Centers: Characterization, Performance Optimizations, and Hardware Implications》、《Dynamic Resource Allocation for Deep Learning Inference in Cloud》等。

One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving

评论