ENOVA: Autoscaling towards Cost-effective and Stable Serverless LLM Serving

2024年05月17日
  • 简介
    由于大型语言模型(LLM)后端系统越来越受欢迎,因此在多GPU集群上部署稳定的无服务器LLM服务,并进行自动扩展是常见且必要的。然而,由于多GPU集群中应用程序的多样性和共存,会导致服务质量和GPU利用率低下,因此存在挑战。为了解决这些问题,我们构建了ENOVA,一种用于无服务器LLM服务的部署、监控和自动扩展的服务。基于对LLM服务执行过程的全面拆解,ENOVA设计了一个配置推荐模块,用于在任何GPU集群上进行自动部署,以及一个性能检测模块,用于自动扩展。在此基础上,ENOVA实现了一个部署执行引擎,用于多GPU集群调度。实验结果表明,ENOVA明显优于其他最先进的方法,并适用于大型在线系统的广泛部署。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决在多GPU集群上部署大型语言模型(LLM)后端系统时,应用程序的多样性和共存会导致低服务质量和GPU利用率的问题。
  • 关键思路
    论文通过对LLM服务执行过程的全面拆解,设计了自动部署的配置建议模块和自动缩放的性能检测模块,并实现了多GPU集群调度的部署执行引擎。
  • 其它亮点
    实验结果表明,ENOVA显著优于其他最先进的方法,并适用于大型在线系统的广泛部署。
  • 相关研究
    近期的相关研究包括:《Large Scale Language Modeling: Converging on 40GB of Text in Four Hours》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问