MuxServe: Flexible Spatial-Temporal Multiplexing for Multiple LLM Serving

2024年04月02日
  • 简介
    大型语言模型(LLMs)表现出了卓越的性能,组织正在竞相提供不同大小的LLMs作为聊天、编程和搜索等用例的终端。然而,由于LLMs的受欢迎程度不同,有效地为多个LLMs提供服务对现有方法提出了重大挑战。在这篇论文中,我们提出了MuxServe,一种灵活的时空复用系统,用于高效地为多个LLM提供服务。其关键洞察是考虑到LLMs的受欢迎程度来共享内存资源,并利用预填充和解码阶段的特征将它们分离和灵活地共享计算资源。MuxServe正式地制定了复用问题,并提出了一种新的放置算法和自适应批处理调度策略,以确定最佳的放置位置并最大化利用率。MuxServe设计了一个统一的资源管理器,以实现灵活和高效的复用。评估结果表明,MuxServe可以实现高达$1.8\times$的吞吐量或在$99\%$ SLO达成率下处理$2.9\times$更多的请求。代码可在以下网址获得:\url{https://github.com/hao-ai-lab/MuxServe}。
  • 作者讲解
  • 图表
  • 解决问题
    MuxServe试图解决多个LLMs同时提供服务时的效率问题,由于LLMs的流行度不同,现有的方法难以高效地提供服务。
  • 关键思路
    MuxServe的关键思路是根据LLMs的流行度将它们灵活地放置在内存资源上,利用预填充和解码阶段的特性将它们分离和灵活地放置在计算资源上。MuxServe提出了一种新的放置算法和自适应批处理调度策略,以识别最佳的放置位置并最大化利用率。
  • 其它亮点
    论文使用MuxServe设计了一个统一的资源管理器,能够实现灵活和高效的多个LLMs同时提供服务。实验结果表明,MuxServe可以实现高达1.8倍的吞吐量或在99%的SLO达成率内处理2.9倍的请求。代码已开源。
  • 相关研究
    最近的相关研究包括使用不同的方法来提高LLMs的效率,例如使用GPU、FPGA等硬件加速器,或者使用不同的模型架构。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问