MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool

2024年06月25日
  • 简介
    大型语言模型(LLM)服务已经从无状态转变为有状态的系统,利用了上下文缓存和分解推理等技术。这些优化扩展了KV缓存的寿命和领域,需要一种新的架构方法。我们提出了MemServe,这是一个统一的系统,集成了请求间和请求内的优化。MemServe引入了MemPool,一个管理分布式内存和KV缓存的弹性内存池,跨服务实例进行管理。利用MemPool API,MemServe首次将上下文缓存与分解推理相结合,由全局调度程序支持,通过基于全局提示树的局部感知策略增强缓存重用。测试表明,MemServe显着提高了作业完成时间和首次响应时间。
  • 图表
  • 解决问题
    MemServe试图解决LLM serving中的性能问题,尤其是KV缓存的生命周期和域的问题,提出了一种新的架构方法。
  • 关键思路
    MemServe是一个统一的系统,结合了请求间和请求内的优化。它引入了MemPool,一个管理分布式内存和KV缓存的弹性内存池。利用MemPool API,MemServe首次将上下文缓存与分离的推理结合起来,由全局调度程序支持,通过基于全局提示树的局部感知策略增强缓存重用。这种方法显著提高了作业完成时间和第一次响应时间。
  • 其它亮点
    论文介绍了MemServe的架构和设计,重点关注了MemPool、全局调度程序和局部感知策略的实现。实验结果表明,MemServe在不同的工作负载下都比现有的方案表现更好。
  • 相关研究
    在LLM serving领域,还有一些相关的研究,例如Disaggregation、Clipper和TensorFlow Serving等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论