EDGE-LLM: Enabling Efficient Large Language Model Adaptation on Edge Devices via Layerwise Unified Compression and Adaptive Layer Tuning and Voting

向作者提问

NEW

简介

高效地在边缘设备上适应大型语言模型（LLM）对于需要连续和保护隐私的应用程序至关重要。然而，由于高计算和内存开销，现有的调整技术存在不足之处。为此，我们引入了一种计算和内存效率高的LLM调整框架，称为Edge-LLM，以促进在边缘设备上实现经济实惠和有效的LLM适应。具体而言，Edge-LLM具有三个核心组件：（1）一种逐层统一压缩（LUC）技术，通过生成逐层修剪稀疏性和量化位宽策略来减少计算开销，（2）一种自适应层调整和投票方案，通过减少反向传播深度来减少内存开销，（3）一种互补的硬件调度策略，以处理LUC和自适应层调整引入的不规则计算模式，从而实现高效的计算和数据移动。广泛的实验表明，与具有可比任务精度的基准调整方法相比，Edge-LLM实现了2.92倍的加速和4倍的内存开销降低。我们的代码可在https://github.com/GATECH-EIC/Edge-LLM上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在边缘设备上高效地适应大型语言模型(LLMs)？现有的调整技术存在哪些问题？
关键思路

提出了一种名为Edge-LLM的计算和内存高效的LLM调整框架。该框架包括三个核心组件：(1)层次统一压缩(LUC)技术，用于生成层次剪枝稀疏性和量化位宽策略，从而减少计算开销。(2)自适应层调整和投票方案，通过减少反向传播深度来减少内存开销。(3)补充硬件调度策略，用于处理LUC和自适应层调整引入的不规则计算模式。该框架实现了高效的计算和数据移动。
其它亮点

实验表明，Edge-LLM相比于基准调整方法，可以实现2.92倍的加速和4倍的内存开销降低，并且具有可比的任务准确性。作者已经在Github上开源了代码。
相关研究

最近的相关研究包括：1. 'TinyBERT: Distilling BERT for Natural Language Understanding' (ICLR 2020)；2. 'MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices' (ACL 2020)；3. 'Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT' (EMNLP 2020)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问