- 简介高效地在边缘设备上适应大型语言模型(LLM)对于需要连续和保护隐私的应用程序至关重要。然而,由于高计算和内存开销,现有的调整技术存在不足之处。为此,我们引入了一种计算和内存效率高的LLM调整框架,称为Edge-LLM,以促进在边缘设备上实现经济实惠和有效的LLM适应。具体而言,Edge-LLM具有三个核心组件:(1)一种逐层统一压缩(LUC)技术,通过生成逐层修剪稀疏性和量化位宽策略来减少计算开销,(2)一种自适应层调整和投票方案,通过减少反向传播深度来减少内存开销,(3)一种互补的硬件调度策略,以处理LUC和自适应层调整引入的不规则计算模式,从而实现高效的计算和数据移动。广泛的实验表明,与具有可比任务精度的基准调整方法相比,Edge-LLM实现了2.92倍的加速和4倍的内存开销降低。我们的代码可在https://github.com/GATECH-EIC/Edge-LLM上获得。
- 图表
- 解决问题如何在边缘设备上高效地适应大型语言模型(LLMs)?现有的调整技术存在哪些问题?
- 关键思路提出了一种名为Edge-LLM的计算和内存高效的LLM调整框架。该框架包括三个核心组件:(1)层次统一压缩(LUC)技术,用于生成层次剪枝稀疏性和量化位宽策略,从而减少计算开销。(2)自适应层调整和投票方案,通过减少反向传播深度来减少内存开销。(3)补充硬件调度策略,用于处理LUC和自适应层调整引入的不规则计算模式。该框架实现了高效的计算和数据移动。
- 其它亮点实验表明,Edge-LLM相比于基准调整方法,可以实现2.92倍的加速和4倍的内存开销降低,并且具有可比的任务准确性。作者已经在Github上开源了代码。
- 最近的相关研究包括:1. 'TinyBERT: Distilling BERT for Natural Language Understanding' (ICLR 2020);2. 'MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices' (ACL 2020);3. 'Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT' (EMNLP 2020)
沙发等你来抢
去评论
评论
沙发等你来抢