- 简介将大型语言模型(LLMs)进行微调以用于下游任务可以极大地提高模型质量,但在多租户环境中为用户同时提供许多不同的微调LLMs是具有挑战性的。为每个模型分配GPU内存是代价高昂的,而简单地在GPU内存中进出大型模型权重会很慢。我们的关键见解是,可以通过提取和压缩每个模型和其预训练基础模型之间的差异来快速地在GPU内存中进出微调模型。我们提出了DeltaZip,一种LLM服务系统,通过将模型增量积极压缩$6\times$至$8\times$的因子,同时保持高模型质量,可以有效地同时提供多个完全参数的微调模型。与香草HuggingFace服务系统相比,DeltaZip可以将服务吞吐量提高$1.5\times$至$3\times$,并提高SLO达成率。
- 图表
- 解决问题论文旨在解决在多租户环境中同时为用户提供多个fine-tuned LLMs的问题,而不需要为每个模型分配GPU内存或者在GPU内存中不断地切换模型权重。
- 关键思路DeltaZip是一种LLM服务系统,它通过提取和压缩每个模型与其预训练基模型之间的差异来快速地在GPU内存中切换fine-tuned模型,从而实现高效地为多个用户提供服务。
- 其它亮点DeltaZip通过将模型差异压缩6倍至8倍来实现高效服务,并且能够保持高模型质量。实验结果表明,DeltaZip相比于HuggingFace服务系统能够提高1.5倍至3倍的服务吞吐量,并且提高了SLO的达成率。
- 在最近的研究中,也有一些关于LLM服务系统的研究,例如MegatronLM、HuggingFace Transformers等。


提问交流