- 简介目前,大型语言模型(LLMs)的提示已经超越了简单的用户问题。为了解决复杂问题,如今的做法包括特定领域的指令、工具使用说明和长篇文本(如教科书章节)的提示。因此,提示的许多部分在请求之间是重复的,并且它们的注意力计算结果可以被重复使用。然而,如今的LLM服务系统将每个请求都视为孤立的,错失了计算重用的机会。 本文提出了Preble,这是第一个针对提示共享进行优化的分布式LLM服务平台。我们对五个流行的LLM工作负载进行了研究。基于研究结果,我们设计了一个分布式调度系统,它共同优化计算重用和负载平衡。我们对Preble在两个开源LLM模型上的真实工作负载和请求到达模式的2到8个GPU进行了评估,结果显示Preble的平均延迟优于现有技术1.5倍至14.5倍,p99优于现有技术2倍至10倍。
- 图表
- 解决问题Preble: 一个分布式LLM服务平台,旨在优化prompt共享
- 关键思路Preble是第一个针对prompt共享进行优化的分布式LLM服务平台,通过协同优化计算重用和负载均衡来提高性能
- 其它亮点Preble在5个流行的LLM工作负载上进行了研究,并设计了一个分布式调度系统来协同优化计算重用和负载均衡。在2到8个GPU上进行实验,使用两个开源LLM模型的真实工作负载和请求到达模式进行评估。结果表明,Preble的平均延迟比现有技术提高了1.5倍至14.5倍,p99比现有技术提高了2倍至10倍
- 最近的相关研究包括LLM模型的优化和部署,以及分布式系统的性能优化。
沙发等你来抢
去评论
评论
沙发等你来抢