Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models

简介

大型语言模型（LLMs）已经出现，并展示了一个模型的通用问题解决能力。然而，为了实现如此广泛的问题解决能力，模型的大小已经大幅增加，达到了数十亿个参数。此外，由于LLMs中矩阵-矩阵和矩阵-向量乘法的占主导地位，计算与模型大小的比率明显低于CNNs。这种转变将LLMs从计算受限制的状态推向了内存受限制的状态。因此，优化内存占用和流量是今天LLMs的重要优化方向。为实现内存占用和流量优化，模型压缩方法，如量化和参数修剪，已经得到积极探索。然而，对于LLMs的秩修剪的精度和效率的权衡尚不清楚。因此，我们对一种低秩分解方法（具体来说是Tucker分解）在最近的语言模型上进行了精度和效率的权衡，包括一个开源的LLM，Llama 2。我们形式化了低秩分解的设计空间，并展示了这种分解设计空间是巨大的（例如，对于Llama2-7B，是O（$2^{37}$））。为了遍历如此广阔的设计空间，我们制定了设计空间，并使用六个广泛使用的LLM基准测试对BERT和Llama 2模型进行了全面的案例研究，以权衡精度和效率。我们的结果表明，我们可以实现9％的模型大小减小，同时最小化精度下降，这些下降范围从4％p到10％p，具体取决于基准测试的难度，而无需任何重新训练以恢复分解后的精度。结果表明，低秩分解可以成为LLM应用程序的一个有前途的方向，这些应用程序需要实时服务（例如，AI代理助手和实时编码助手），其中延迟与模型精度同样重要。

图表

解决问题

优化大型语言模型的内存占用和流量问题，探究低秩分解方法在保持模型准确率的前提下实现模型尺寸的减小

关键思路

使用Tucker分解方法对最近的语言模型进行低秩分解，并通过实验研究准确率和效率之间的权衡关系

其它亮点

通过对六个常用的大型语言模型进行实验，结果表明在不重新训练的情况下，使用低秩分解方法可以将模型尺寸减小9%，并且最小的准确率降低为4%。这是一个有前途的方向，特别是对于需要实时服务的应用程序，如AI代理助手和实时编码助手。

Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models

评论