- 简介大型语言模型(LLM)服务已经从无状态转变为有状态的系统,利用了上下文缓存和分解推理等技术。这些优化扩展了KV缓存的寿命和领域,需要一种新的架构方法。我们提出了MemServe,这是一个统一的系统,集成了请求间和请求内的优化。MemServe引入了MemPool,一个管理分布式内存和KV缓存的弹性内存池,跨服务实例进行管理。利用MemPool API,MemServe首次将上下文缓存与分解推理相结合,由全局调度程序支持,通过基于全局提示树的局部感知策略增强缓存重用。测试表明,MemServe显着提高了作业完成时间和首次响应时间。
- 图表
- 解决问题MemServe试图解决LLM serving中的性能问题,尤其是KV缓存的生命周期和域的问题,提出了一种新的架构方法。
- 关键思路MemServe是一个统一的系统,结合了请求间和请求内的优化。它引入了MemPool,一个管理分布式内存和KV缓存的弹性内存池。利用MemPool API,MemServe首次将上下文缓存与分离的推理结合起来,由全局调度程序支持,通过基于全局提示树的局部感知策略增强缓存重用。这种方法显著提高了作业完成时间和第一次响应时间。
- 其它亮点论文介绍了MemServe的架构和设计,重点关注了MemPool、全局调度程序和局部感知策略的实现。实验结果表明,MemServe在不同的工作负载下都比现有的方案表现更好。
- 在LLM serving领域,还有一些相关的研究,例如Disaggregation、Clipper和TensorFlow Serving等。
沙发等你来抢
去评论
评论
沙发等你来抢