TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

简介

由于对用户交互数据隐私的担忧，大型模型推理正在从云端转向边缘。然而，边缘设备常常面临计算能力、内存和带宽有限的问题，需要跨多个设备进行协作，以运行和加速LLM推理。主流的管道并行方法对于单用户场景效率低下，而张量并行方法则面临频繁通信的问题。本文认为，在低资源设备上，张量并行方法比管道并行方法更有效，并提出了一种计算和内存高效的张量并行推理系统，名为TPI-LLM，用于服务于70B规模的模型。TPI-LLM将敏感原始数据保留在用户设备本地，并引入滑动窗口内存调度器，在推理过程中动态管理层权重，将磁盘I/O延迟与计算和通信重叠。这使得更大的模型可以在内存受限的设备上平稳运行。我们分析了通信瓶颈，并发现链路延迟而不是带宽成为主要问题，因此实现了一种基于星型的全局约简算法。通过在模拟和真实测试平台上进行大量实验，TPI-LLM相比Accelerate的时间到第一个标记和标记延迟减少了80％以上，相比Transformers和Galaxy的减少了90％以上，同时将Llama 2-70B的峰值内存占用减少了90％，对于70B规模的模型仅需要3.1GB的内存。
图表
解决问题

解决问题：论文试图提出一种在边缘设备上运行大型模型推理的解决方案，以解决用户交互数据隐私保护的问题。
关键思路

关键思路：论文提出了一种计算和内存高效的张量并行推理系统TPI-LLM，在用户设备上本地保留敏感原始数据，并引入滑动窗口内存调度器来动态管理层权重，使内存受限设备上的大型模型推理更加顺畅。
其它亮点

其他亮点：TPI-LLM通过实验验证，相比于现有的加速方案，具有更快的时间到第一个标记和标记延迟，同时将Llama 2-70B的峰值内存占用降低了90％。论文还分析了通信瓶颈，并实现了基于星型的全局约简算法。
相关研究

相关研究：在这个领域中，与本论文相关的研究包括：加速、Transformers和Galaxy等现有的加速方案，以及使用管道并行性和张量并行性的其他研究。

TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

评论