Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving

简介

Mooncake是Moonshot AI提供的领先LLM服务Kimi的服务平台。它采用基于KVCache的分离式架构，将预填充和解码集群分离。它还利用GPU集群的未充分利用的CPU、DRAM和SSD资源来实现KVCache的分离式缓存。Mooncake的核心是基于KVCache的调度器，它平衡了最大化整体有效吞吐量和满足与延迟相关的服务级别目标（SLO）之间的关系。与传统研究假设所有请求都将被处理不同，Mooncake面临高度超负荷的情况。为了缓解这些问题，我们开发了基于预测的早期拒绝策略。实验表明，Mooncake在长上下文场景中表现出色。与基线方法相比，在某些模拟场景中，Mooncake的吞吐量可以提高高达525%，同时遵守SLO。在实际工作负载下，Mooncake的创新架构使Kimi能够处理更多的请求，增加了75%。
图表
解决问题

Mooncake试图解决Kimi LLM服务中的高负载场景下的性能问题，通过预测和早期拒绝策略来提高服务的吞吐量和满足服务水平目标（SLOs）。
关键思路

Mooncake采用KVCache-centric的调度器来平衡吞吐量和SLOs，同时利用GPU集群的CPU、DRAM和SSD资源来实现KVCache的分离缓存，解决了传统方法中的瓶颈问题。
其它亮点

Mooncake的实验结果表明，在长时间的上下文场景下，其吞吐量比基线方法提高了多达525％，同时仍能满足SLOs。此外，Mooncake的架构使Kimi能够处理更多请求。
相关研究

在相关研究中，有一些研究也关注了服务的性能问题，如使用深度学习来预测请求的响应时间、利用机器学习来优化服务负载等。其中一些论文的标题包括“DeepTTE：预测出租车到达时间”，“基于机器学习的负载均衡方法”等。

Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving

评论