Preble: Efficient Distributed Prompt Scheduling for LLM Serving

简介

目前，大型语言模型（LLMs）的提示已经超越了简单的用户问题。为了解决复杂问题，如今的做法包括特定领域的指令、工具使用说明和长篇文本（如教科书章节）的提示。因此，提示的许多部分在请求之间是重复的，并且它们的注意力计算结果可以被重复使用。然而，如今的LLM服务系统将每个请求都视为孤立的，错失了计算重用的机会。本文提出了Preble，这是第一个针对提示共享进行优化的分布式LLM服务平台。我们对五个流行的LLM工作负载进行了研究。基于研究结果，我们设计了一个分布式调度系统，它共同优化计算重用和负载平衡。我们对Preble在两个开源LLM模型上的真实工作负载和请求到达模式的2到8个GPU进行了评估，结果显示Preble的平均延迟优于现有技术1.5倍至14.5倍，p99优于现有技术2倍至10倍。
图表
解决问题

Preble: 一个分布式LLM服务平台，旨在优化prompt共享
关键思路

Preble是第一个针对prompt共享进行优化的分布式LLM服务平台，通过协同优化计算重用和负载均衡来提高性能
其它亮点

Preble在5个流行的LLM工作负载上进行了研究，并设计了一个分布式调度系统来协同优化计算重用和负载均衡。在2到8个GPU上进行实验，使用两个开源LLM模型的真实工作负载和请求到达模式进行评估。结果表明，Preble的平均延迟比现有技术提高了1.5倍至14.5倍，p99比现有技术提高了2倍至10倍
相关研究

最近的相关研究包括LLM模型的优化和部署，以及分布式系统的性能优化。

Preble: Efficient Distributed Prompt Scheduling for LLM Serving

评论