- 简介Mooncake是由Moonshot AI提供的领先LLM服务Kimi的服务平台。它采用基于KVCache的分离式架构,将预填充和解码集群分离。它还利用GPU集群的未充分利用的CPU、DRAM和SSD资源来实现KVCache的分离式缓存。Mooncake的核心是基于KVCache的调度器,它平衡了最大化整体有效吞吐量和满足与延迟相关的服务级别目标(SLOs)。与传统研究假设所有请求都会被处理不同,Mooncake面临高度超载的场景挑战。为了缓解这些挑战,我们开发了基于预测的早期拒绝策略。实验表明,Mooncake在长上下文场景中表现出色。与基准方法相比,在某些模拟场景中,Mooncake的吞吐量可以提高高达525%,同时遵守SLOs。在真实工作负载下,Mooncake的创新架构使Kimi能够处理更多的请求,增加了75%。
- 解决问题Mooncake试图解决的问题是在高负载场景下,如何提高Kimi服务的吞吐量并满足服务水平目标(SLO)。
- 关键思路Mooncake的关键思路是采用KVCache-centric的调度器来平衡吞吐量和延迟,并使用基于预测的早期拒绝策略来缓解高负载场景下的挑战。
- 其它亮点Mooncake采用了一种KVCache-centric的架构,将预填充和解码集群分离,并利用GPU集群的未充分利用的CPU、DRAM和SSD资源来实现KVCache的分离缓存。实验结果表明,在长上下文场景下,Mooncake的吞吐量可以比基准方法提高高达525%,同时仍满足SLO。在实际工作负载下,Mooncake的创新架构使Kimi能够处理更多请求。
- 最近在这个领域中,还有一些相关的研究,例如《Scaling Distributed Machine Learning with In-Network Aggregation》和《Disaggregated Compute and Storage for Ceph》。
沙发等你来抢
去评论
评论
沙发等你来抢