- 简介大型语言模型(LLMs)的快速增长推动了基于云的LLM服务的增长,这些服务现在已成为推动人工智能应用的重要组成部分。然而,LLM服务的动态自回归特性以及需要支持异常长的上下文长度,要求灵活地分配和释放大量资源。这在设计基于云的LLM服务系统时提出了相当大的挑战,低效的管理可能导致性能下降或资源浪费。为了应对这些挑战,本文介绍了DistAttention,一种新颖的分布式注意力算法,它将KV缓存分成较小的可管理单元,实现了注意力模块的分布式处理和存储。基于此,我们提出了DistKV-LLM,一种分布式LLM服务系统,动态管理KV缓存并有效地编排跨数据中心的所有可访问GPU和CPU内存。这确保了在云上高性能的LLM服务,适用于广泛的上下文长度。在32个NVIDIA A100 GPU的云环境中验证了我们的系统,在2到32个实例的配置中,我们的系统表现出1.03-2.4倍的端到端吞吐量提高,并支持比当前最先进的LLM服务系统长2-19倍的上下文长度,这得到了对18个数据集进行广泛测试的证明。
- 图表
- 解决问题论文旨在解决云端LLM服务系统中资源管理的挑战,提出了一种分布式注意力算法DistAttention和分布式LLM服务系统DistKV-LLM。
- 关键思路DistAttention算法将KV Cache分割成可管理的单元,实现了注意力模块的分布式处理和存储,DistKV-LLM系统则动态管理KV Cache并有效编排跨数据中心的所有可访问GPU和CPU内存,从而实现了适应广泛上下文长度的高性能LLM服务。
- 其它亮点实验在云环境下进行,使用了18个数据集进行广泛测试,支持的上下文长度比当前最先进的LLM服务系统长2-19倍。系统在32个NVIDIA A100 GPU的配置下,端到端吞吐量提高了1.03-2.4倍。论文提出的算法和系统具有很高的实用性和可扩展性。
- 相关研究包括:《Scaling Laws for Neural Language Models》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》、《The Evolved Transformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢