MuxServe: Flexible Multiplexing for Efficient Multiple LLM Serving

简介

大型语言模型（LLMs）已经展现出了非凡的性能，各个组织都在争相提供不同规模的LLMs作为聊天、编程和搜索等用例的终端。然而，由于LLMs的受欢迎程度不同，有效地为多个LLMs提供服务对于现有方法来说存在重大挑战。在本文中，我们提出了MuxServe，这是一个灵活的时空复用系统，用于高效地服务多个LLMs。其关键见解是考虑到LLMs的受欢迎程度，将它们放置在一起以复用内存资源，并利用预填充和解码阶段的特性将它们分离和灵活地放置在一起，以复用计算资源。MuxServe正式地公式化了复用问题，并提出了一种新的放置算法和自适应批处理调度策略，以确定最佳的放置位置并最大化利用率。MuxServe设计了一个统一的资源管理器，以实现灵活和高效的复用。评估结果表明，MuxServe可以实现高达$1.8\times$的吞吐量，或在$99\%$的SLO达成率下处理$2.9\times$更多的请求。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何高效地为多个LLMs提供服务，考虑到LLMs的不同受欢迎程度？
关键思路

MuxServe是一个灵活的空间-时间多路复用系统，可以将LLMs聚合到一起，同时利用预填充和解码阶段的特点来分离和灵活地聚合它们以多路复用计算资源。
其它亮点

MuxServe提出了一种新的放置算法和自适应批处理调度策略，以识别最佳的放置位置并最大化利用率。该论文还设计了一个统一的资源管理器，以实现灵活高效的多路复用。实验结果表明，MuxServe可以实现高达1.8倍的吞吐量或在99％的SLO达成率内处理2.9倍的请求。
相关研究

最近的相关研究包括LLM性能优化，多路复用和资源管理。相关论文包括《Scaling Laws for Autoregressive Generative Modeling》和《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》。

MuxServe: Flexible Multiplexing for Efficient Multiple LLM Serving

提问交流

提问交流