Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache

2024年01月05日
  • 简介
    大型语言模型(LLMs)的快速增长推动了基于云的LLM服务的增长,这些服务现在已成为推动人工智能应用的重要组成部分。然而,LLM服务的动态自回归特性以及需要支持异常长的上下文长度,要求灵活地分配和释放大量资源。这在设计基于云的LLM服务系统时提出了相当大的挑战,低效的管理可能导致性能下降或资源浪费。为了应对这些挑战,本文介绍了DistAttention,一种新颖的分布式注意力算法,它将KV缓存分成较小的可管理单元,实现了注意力模块的分布式处理和存储。基于此,我们提出了DistKV-LLM,一种分布式LLM服务系统,动态管理KV缓存并有效地编排跨数据中心的所有可访问GPU和CPU内存。这确保了在云上高性能的LLM服务,适用于广泛的上下文长度。在32个NVIDIA A100 GPU的云环境中验证了我们的系统,在2到32个实例的配置中,我们的系统表现出1.03-2.4倍的端到端吞吐量提高,并支持比当前最先进的LLM服务系统长2-19倍的上下文长度,这得到了对18个数据集进行广泛测试的证明。
  • 图表
  • 解决问题
    论文旨在解决云端LLM服务系统中资源管理的挑战,提出了一种分布式注意力算法DistAttention和分布式LLM服务系统DistKV-LLM。
  • 关键思路
    DistAttention算法将KV Cache分割成可管理的单元,实现了注意力模块的分布式处理和存储,DistKV-LLM系统则动态管理KV Cache并有效编排跨数据中心的所有可访问GPU和CPU内存,从而实现了适应广泛上下文长度的高性能LLM服务。
  • 其它亮点
    实验在云环境下进行,使用了18个数据集进行广泛测试,支持的上下文长度比当前最先进的LLM服务系统长2-19倍。系统在32个NVIDIA A100 GPU的配置下,端到端吞吐量提高了1.03-2.4倍。论文提出的算法和系统具有很高的实用性和可扩展性。
  • 相关研究
    相关研究包括:《Scaling Laws for Neural Language Models》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》、《The Evolved Transformer》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论