SpotServe: Serving Generative Large Language Models on Preemptible Instances

向作者提问

NEW

简介

本文旨在通过利用现代云平台上的可抢占式 GPU 实例，降低为生成式大型语言模型（LLM）提供服务的成本。这些可抢占的 GPU 实例比普通实例提供更便宜的价格，但可能随时被云平台抢占。在可抢占实例上提供 LLM 服务需要解决频繁实例抢占和迁移实例的挑战。本文提出了 SpotServe，这是第一个在可抢占实例上分布式提供 LLM 服务的系统。SpotServe 中的几个关键技术实现了在便宜的可抢占实例上快速可靠地提供生成式 LLM 服务。首先，SpotServe 动态适应 LLM 并行化配置以适应动态实例可用性和波动的工作负载，同时平衡总吞吐量、推理延迟和成本之间的权衡。其次，为了最小化动态重新并行化迁移实例的成本，将迁移实例的任务形式化为二分图匹配问题，使用 Kuhn-Munkres 算法识别最小通信的最优迁移计划。最后，为了利用现代云平台提供的优惠期，引入了有状态推理恢复，这是一种新的推理机制，可以在更细的粒度上提交推理进度，并允许 SpotServe 在抢占后便宜地恢复推理。我们在真实的可抢占实例抢占跟踪和各种流行的 LLM 上进行了评估，结果显示，与现有最佳 LLM 服务系统相比，SpotServe 可以将 P99 尾延迟降低 2.4-9.1 倍。我们还展示了 SpotServe 可以利用可抢占实例的价格优势，与仅使用按需实例相比，节省 54% 的成本。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过利用现代云平台上的抢占式GPU实例来降低生成大型语言模型（LLMs）的服务成本，但这需要解决实例抢占和迁移的挑战。这是否是一个新问题？
关键思路

SpotServe是第一个在抢占式实例上分布式服务LLMs的系统，通过动态适应LLM并行化配置、最小化实例迁移成本和引入状态恢复机制来实现快速可靠的服务。
其它亮点

论文使用了真实的抢占式实例预测数据和多种流行的LLMs进行评估，并展示了SpotServe相比现有系统可以将P99尾延迟降低2.4-9.1倍，并且可以节省54%的费用。论文提出的状态恢复机制和最小化实例迁移成本的算法都值得进一步研究。
相关研究

最近的相关研究包括使用抢占式实例进行深度学习训练和服务的研究，例如《Preemptible Instances for Deep Learning Workloads: An Analysis of Performance and Cost Trade-offs》和《Deep Learning at Scale with Kubernetes and TensorFlow on DC/OS》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问