TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

2024年10月01日
  • 简介
    由于对用户交互数据隐私的担忧,大型模型推理正在从云端转向边缘。然而,边缘设备常常面临计算能力、内存和带宽有限的问题,需要跨多个设备进行协作,以运行和加速LLM推理。主流的管道并行方法对于单用户场景效率低下,而张量并行方法则面临频繁通信的问题。本文认为,在低资源设备上,张量并行方法比管道并行方法更有效,并提出了一种计算和内存高效的张量并行推理系统,名为TPI-LLM,用于服务于70B规模的模型。TPI-LLM将敏感原始数据保留在用户设备本地,并引入滑动窗口内存调度器,在推理过程中动态管理层权重,将磁盘I/O延迟与计算和通信重叠。这使得更大的模型可以在内存受限的设备上平稳运行。我们分析了通信瓶颈,并发现链路延迟而不是带宽成为主要问题,因此实现了一种基于星型的全局约简算法。通过在模拟和真实测试平台上进行大量实验,TPI-LLM相比Accelerate的时间到第一个标记和标记延迟减少了80%以上,相比Transformers和Galaxy的减少了90%以上,同时将Llama 2-70B的峰值内存占用减少了90%,对于70B规模的模型仅需要3.1GB的内存。
  • 图表
  • 解决问题
    解决问题:论文试图提出一种在边缘设备上运行大型模型推理的解决方案,以解决用户交互数据隐私保护的问题。
  • 关键思路
    关键思路:论文提出了一种计算和内存高效的张量并行推理系统TPI-LLM,在用户设备上本地保留敏感原始数据,并引入滑动窗口内存调度器来动态管理层权重,使内存受限设备上的大型模型推理更加顺畅。
  • 其它亮点
    其他亮点:TPI-LLM通过实验验证,相比于现有的加速方案,具有更快的时间到第一个标记和标记延迟,同时将Llama 2-70B的峰值内存占用降低了90%。论文还分析了通信瓶颈,并实现了基于星型的全局约简算法。
  • 相关研究
    相关研究:在这个领域中,与本论文相关的研究包括:加速、Transformers和Galaxy等现有的加速方案,以及使用管道并行性和张量并行性的其他研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论