Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving

2024年06月24日
  • 简介
    Mooncake是Moonshot AI提供的领先LLM服务Kimi的服务平台。它采用基于KVCache的分离式架构,将预填充和解码集群分离。它还利用GPU集群的未充分利用的CPU、DRAM和SSD资源来实现KVCache的分离式缓存。Mooncake的核心是基于KVCache的调度器,它平衡了最大化整体有效吞吐量和满足与延迟相关的服务级别目标(SLO)之间的关系。与传统研究假设所有请求都将被处理不同,Mooncake面临高度超负荷的情况。为了缓解这些问题,我们开发了基于预测的早期拒绝策略。实验表明,Mooncake在长上下文场景中表现出色。与基线方法相比,在某些模拟场景中,Mooncake的吞吐量可以提高高达525%,同时遵守SLO。在实际工作负载下,Mooncake的创新架构使Kimi能够处理更多的请求,增加了75%。
  • 图表
  • 解决问题
    Mooncake试图解决Kimi LLM服务中的高负载场景下的性能问题,通过预测和早期拒绝策略来提高服务的吞吐量和满足服务水平目标(SLOs)。
  • 关键思路
    Mooncake采用KVCache-centric的调度器来平衡吞吐量和SLOs,同时利用GPU集群的CPU、DRAM和SSD资源来实现KVCache的分离缓存,解决了传统方法中的瓶颈问题。
  • 其它亮点
    Mooncake的实验结果表明,在长时间的上下文场景下,其吞吐量比基线方法提高了多达525%,同时仍能满足SLOs。此外,Mooncake的架构使Kimi能够处理更多请求。
  • 相关研究
    在相关研究中,有一些研究也关注了服务的性能问题,如使用深度学习来预测请求的响应时间、利用机器学习来优化服务负载等。其中一些论文的标题包括“DeepTTE:预测出租车到达时间”,“基于机器学习的负载均衡方法”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论