- 简介大型语言模型(LLMs)已经出现,并展示了一个模型的通用问题解决能力。然而,为了实现如此广泛的问题解决能力,模型的大小已经大幅增加,达到了数十亿个参数。此外,由于LLMs中矩阵-矩阵和矩阵-向量乘法的占主导地位,计算与模型大小的比率明显低于CNNs。这种转变将LLMs从计算受限制的状态推向了内存受限制的状态。因此,优化内存占用和流量是今天LLMs的重要优化方向。 为实现内存占用和流量优化,模型压缩方法,如量化和参数修剪,已经得到积极探索。然而,对于LLMs的秩修剪的精度和效率的权衡尚不清楚。因此,我们对一种低秩分解方法(具体来说是Tucker分解)在最近的语言模型上进行了精度和效率的权衡,包括一个开源的LLM,Llama 2。 我们形式化了低秩分解的设计空间,并展示了这种分解设计空间是巨大的(例如,对于Llama2-7B,是O($2^{37}$))。为了遍历如此广阔的设计空间,我们制定了设计空间,并使用六个广泛使用的LLM基准测试对BERT和Llama 2模型进行了全面的案例研究,以权衡精度和效率。我们的结果表明,我们可以实现9%的模型大小减小,同时最小化精度下降,这些下降范围从4%p到10%p,具体取决于基准测试的难度,而无需任何重新训练以恢复分解后的精度。结果表明,低秩分解可以成为LLM应用程序的一个有前途的方向,这些应用程序需要实时服务(例如,AI代理助手和实时编码助手),其中延迟与模型精度同样重要。
- 图表
- 解决问题优化大型语言模型的内存占用和流量问题,探究低秩分解方法在保持模型准确率的前提下实现模型尺寸的减小
- 关键思路使用Tucker分解方法对最近的语言模型进行低秩分解,并通过实验研究准确率和效率之间的权衡关系
- 其它亮点通过对六个常用的大型语言模型进行实验,结果表明在不重新训练的情况下,使用低秩分解方法可以将模型尺寸减小9%,并且最小的准确率降低为4%。这是一个有前途的方向,特别是对于需要实时服务的应用程序,如AI代理助手和实时编码助手。
- 模型压缩方法,如量化和参数修剪,已经被积极探索以实现内存占用和流量优化。
沙发等你来抢
去评论
评论
沙发等你来抢