MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

简介

大型语言模型（LLM）服务已经从无状态转变为有状态的系统，利用了上下文缓存和分解推理等技术。这些优化扩展了KV缓存的寿命和领域，需要一种新的架构方法。我们提出了MemServe，这是一个统一的系统，集成了请求间和请求内的优化。MemServe引入了MemPool，一个管理分布式内存和KV缓存的弹性内存池，跨服务实例进行管理。利用MemPool API，MemServe首次将上下文缓存与分解推理相结合，由全局调度程序支持，通过基于全局提示树的局部感知策略增强缓存重用。测试表明，MemServe显着提高了作业完成时间和首次响应时间。
图表
解决问题

MemServe试图解决LLM serving中的性能问题，尤其是KV缓存的生命周期和域的问题，提出了一种新的架构方法。
关键思路

MemServe是一个统一的系统，结合了请求间和请求内的优化。它引入了MemPool，一个管理分布式内存和KV缓存的弹性内存池。利用MemPool API，MemServe首次将上下文缓存与分离的推理结合起来，由全局调度程序支持，通过基于全局提示树的局部感知策略增强缓存重用。这种方法显著提高了作业完成时间和第一次响应时间。
其它亮点

论文介绍了MemServe的架构和设计，重点关注了MemPool、全局调度程序和局部感知策略的实现。实验结果表明，MemServe在不同的工作负载下都比现有的方案表现更好。
相关研究

在LLM serving领域，还有一些相关的研究，例如Disaggregation、Clipper和TensorFlow Serving等。

MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

评论