ENOVA: Autoscaling towards Cost-effective and Stable Serverless LLM Serving

简介

由于大型语言模型（LLM）后端系统越来越受欢迎，因此在多GPU集群上部署稳定的无服务器LLM服务，并进行自动扩展是常见且必要的。然而，由于多GPU集群中应用程序的多样性和共存，会导致服务质量和GPU利用率低下，因此存在挑战。为了解决这些问题，我们构建了ENOVA，一种用于无服务器LLM服务的部署、监控和自动扩展的服务。基于对LLM服务执行过程的全面拆解，ENOVA设计了一个配置推荐模块，用于在任何GPU集群上进行自动部署，以及一个性能检测模块，用于自动扩展。在此基础上，ENOVA实现了一个部署执行引擎，用于多GPU集群调度。实验结果表明，ENOVA明显优于其他最先进的方法，并适用于大型在线系统的广泛部署。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决在多GPU集群上部署大型语言模型（LLM）后端系统时，应用程序的多样性和共存会导致低服务质量和GPU利用率的问题。
关键思路

论文通过对LLM服务执行过程的全面拆解，设计了自动部署的配置建议模块和自动缩放的性能检测模块，并实现了多GPU集群调度的部署执行引擎。
其它亮点

实验结果表明，ENOVA显著优于其他最先进的方法，并适用于大型在线系统的广泛部署。
相关研究

近期的相关研究包括：《Large Scale Language Modeling: Converging on 40GB of Text in Four Hours》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》等。

ENOVA: Autoscaling towards Cost-effective and Stable Serverless LLM Serving

提问交流

提问交流