Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache

简介

大型语言模型（LLMs）的快速增长推动了基于云的LLM服务的增长，这些服务现在已成为推动人工智能应用的重要组成部分。然而，LLM服务的动态自回归特性以及需要支持异常长的上下文长度，要求灵活地分配和释放大量资源。这在设计基于云的LLM服务系统时提出了相当大的挑战，低效的管理可能导致性能下降或资源浪费。为了应对这些挑战，本文介绍了DistAttention，一种新颖的分布式注意力算法，它将KV缓存分成较小的可管理单元，实现了注意力模块的分布式处理和存储。基于此，我们提出了DistKV-LLM，一种分布式LLM服务系统，动态管理KV缓存并有效地编排跨数据中心的所有可访问GPU和CPU内存。这确保了在云上高性能的LLM服务，适用于广泛的上下文长度。在32个NVIDIA A100 GPU的云环境中验证了我们的系统，在2到32个实例的配置中，我们的系统表现出1.03-2.4倍的端到端吞吐量提高，并支持比当前最先进的LLM服务系统长2-19倍的上下文长度，这得到了对18个数据集进行广泛测试的证明。
图表
解决问题

论文旨在解决云端LLM服务系统中资源管理的挑战，提出了一种分布式注意力算法DistAttention和分布式LLM服务系统DistKV-LLM。
关键思路

DistAttention算法将KV Cache分割成可管理的单元，实现了注意力模块的分布式处理和存储，DistKV-LLM系统则动态管理KV Cache并有效编排跨数据中心的所有可访问GPU和CPU内存，从而实现了适应广泛上下文长度的高性能LLM服务。
其它亮点

实验在云环境下进行，使用了18个数据集进行广泛测试，支持的上下文长度比当前最先进的LLM服务系统长2-19倍。系统在32个NVIDIA A100 GPU的配置下，端到端吞吐量提高了1.03-2.4倍。论文提出的算法和系统具有很高的实用性和可扩展性。
相关研究

相关研究包括：《Scaling Laws for Neural Language Models》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》、《The Evolved Transformer》等。

Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache

评论