- 简介由于大型语言模型(LLM)后端系统越来越受欢迎,因此在多GPU集群上部署稳定的无服务器LLM服务,并进行自动扩展是常见且必要的。然而,由于多GPU集群中应用程序的多样性和共存,会导致服务质量和GPU利用率低下,因此存在挑战。为了解决这些问题,我们构建了ENOVA,一种用于无服务器LLM服务的部署、监控和自动扩展的服务。基于对LLM服务执行过程的全面拆解,ENOVA设计了一个配置推荐模块,用于在任何GPU集群上进行自动部署,以及一个性能检测模块,用于自动扩展。在此基础上,ENOVA实现了一个部署执行引擎,用于多GPU集群调度。实验结果表明,ENOVA明显优于其他最先进的方法,并适用于大型在线系统的广泛部署。
-
- 图表
- 解决问题论文旨在解决在多GPU集群上部署大型语言模型(LLM)后端系统时,应用程序的多样性和共存会导致低服务质量和GPU利用率的问题。
- 关键思路论文通过对LLM服务执行过程的全面拆解,设计了自动部署的配置建议模块和自动缩放的性能检测模块,并实现了多GPU集群调度的部署执行引擎。
- 其它亮点实验结果表明,ENOVA显著优于其他最先进的方法,并适用于大型在线系统的广泛部署。
- 近期的相关研究包括:《Large Scale Language Modeling: Converging on 40GB of Text in Four Hours》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流