- 简介随着数据安全和云成本的不断上升,移动设备上部署大型语言模型(LLMs)的需求不断增加。然而,网络带宽和内存限制使得在移动设备上部署十亿级模型面临挑战。在这项研究中,我们调查了不同规模的LLMs的不同层的输出,并发现大多数层的输出具有显着的相似性。此外,随着模型大小的增加,这种相似性变得更加明显,表明在LLMs的深度方向上存在大量的冗余。基于这个观察结果,我们提出了一种高效的模型体积压缩策略,称为FoldGPT,它结合了块删除和块参数共享。该策略包括三个部分:(1)基于可学习的门控参数,我们确定块的重要性排名,同时建模块之间的耦合效应。然后,我们根据给定的删除率删除一些冗余层。(2)对于保留的块,我们应用一种特殊设计的组参数共享策略,其中同一组内的块共享相同的权重,显著压缩了参数数量并略微降低了延迟开销。(3)在共享这些块之后,我们使用少量微调来“治愈”稀疏引起的不匹配,并引入一种尾层蒸馏策略来提高性能。实验证明,FoldGPT在高效模型压缩方面优于以前的最先进方法(SOTA),证明了通过简单的块删除和参数共享实现模型轻量化的可行性。
-
- 图表
- 解决问题论文旨在解决在移动设备上部署大型语言模型的问题,因为网络带宽和内存限制对于在移动设备上部署十亿级别的模型构成了挑战。
- 关键思路通过研究不同规模的语言模型的不同层的输出,发现大多数层的输出具有显着的相似性,并且随着模型大小的增加,这种相似性变得更加明显,表明在LLMs的深度方向上存在重复。基于这一观察,提出了一种高效的模型体积压缩策略,称为FoldGPT,它结合了块删除和块参数共享。
- 其它亮点论文提出的FoldGPT方法在有效模型压缩方面优于以前的最新技术,证明了通过简单的块删除和参数共享实现模型轻量化的可行性。实验结果表明,这种策略可以显著压缩模型的体积和参数数量,并且在保持模型性能的同时降低了计算成本。论文还介绍了一些相关工作和未来的研究方向。
- 最近在这个领域中,还有一些相关的研究,如《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》、《MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流