EdgeShard: Efficient LLM Inference via Collaborative Edge Computing

简介

大型语言模型（LLMs）在自然语言处理和内容生成方面显示出巨大的潜力。然而，当前的LLMs严重依赖于云计算，导致延迟时间长、带宽成本高和隐私问题。边缘计算有望通过将LLMs部署在靠近数据源的边缘设备上来解决这些问题。一些工作尝试利用模型量化来减小模型大小以适应资源受限的边缘设备，但这会导致精度损失。其他工作使用云边协作，但受到不稳定的网络连接的影响。在这项工作中，我们利用协作边缘计算来促进边缘设备和云服务器之间的协作，共同执行高效的LLM推理。我们提出了一个通用框架，将LLM模型分成片段并部署在分布式设备上。为了实现高效的LLM推理，我们制定了一个自适应的联合设备选择和模型分区问题，并设计了一种有效的动态规划算法来分别优化推理延迟和吞吐量。在异构物理原型上进行的Llama2串行模型实验表明，EdgeShard相对于基线方法实现了高达50%的延迟降低和2倍的吞吐量提高。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：如何在边缘设备上进行高效的大型语言模型推理？
关键思路

关键思路：使用分布式设备协作来部署大型语言模型，并将模型分割成片段以进行高效推理。设计了动态规划算法来优化推理延迟和吞吐量。
其它亮点

其他亮点：实验使用了Llama2序列模型在异构物理原型上进行，展示了EdgeShard相比基线方法可实现高达50%的延迟降低和2倍的吞吐量提升。
相关研究

相关研究：当前的研究主要关注于使用量化技术减小模型大小，或者使用云-边协作来进行推理，但这些方法都存在一定的问题。

EdgeShard: Efficient LLM Inference via Collaborative Edge Computing

提问交流

提问交流