首个千亿模型压缩算法 SparseGPT 来了，降低算力成本的同时保持高精度

ChatGPT 的爆火再一次将 GPT 家族的生成式大型语言模型带到聚光灯下，它们在各种任务中都已显示出了强大的性能。

模型的庞大规模也带来了计算成本的上升和部署难度的增加，比如，GPT‑175B 模型总计至少占 320GB 半精度 (FP16) 格式的存储空间，在推理时，起码需要五个 80 GB 存储空间的 A100 GPU。

模型压缩（model compression）是当前使用较多的一种降低大模型计算成本的方法，但迄今为止，几乎所有现有的 GPT 压缩方法都专注于量化（quantization），即降低单个权重的数值表示的精度。

另一种模型压缩方法是剪枝（pruning），即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件如权重矩阵的整行/列（结构化剪枝）。这种方法在视觉和较小规模的语言模型中很有效，但会导致精度损失，从而需要对模型进行大量再训练来恢复精度，所以遇到 GPT 这样大规模的模型时，成本就又变得过于昂贵了。虽然也有一些单次剪枝方法，无需重新训练即可压缩模型，但它们计算量太大，难以应用于具有数十亿参数的模型。

那么针对 GPT-3 这种规模的大模型，有没有一种方法能够对其作精确的剪枝、同时保持最小的精度损失且降低计算成本？

近日，来自奥地利科学技术研究所 (ISTA) 的两名研究人员 Elias Frantar 和 Dan Alistarh 合作了一项研究，首次针对 100 至 1000 亿参数的模型规模，提出了精确的单次剪枝方法 SparseGPT。

论文地址：https://arxiv.org/pdf/2301.00774.pdf

SparseGPT 可以将 GPT 系列模型单次剪枝到 50% 的稀疏性，而无需任何重新训练。目前最大的公开可用的 GPT-175B 模型，只需要使用单个 GPU 在几个小时内就能实现这种剪枝。而且，SparseGPT 还很准确，能将精度损失降到最小。比如在目前最大的开源模型 OPT‑175B 和 BLOOM‑176B 上执行SparseGPT 时，可以达到 60% 的稀疏度，同时将精度损失降到最小。

ISTA 团队的这项工作提出了 SparseGPT 方法，可以实现几个小时内在单个 GPU 上运行千亿以上参数的模型，并且足够准确，可将模型修剪到 50%-60% 的稀疏度水平，而不会大幅度降低性能。

SparseGPT 的核心是一种新的大规模近似稀疏回归算法，它可以推广到半结构化（2:4 和 4:8）模式，并且与现有的权重量化方法兼容。

图注：SparseGPT 重建算法的可视化。给定一个固定的剪枝掩码 M，使用 Hessian 逆序列(HUj )并更新这些行中位于列“右侧”的剩余权重，逐步修剪权重矩阵 W 的每一列中的权重处理。具体来说，修剪后权重（深蓝⾊）“右侧”的权重将被更新以补偿修剪错误，而未修剪的权重不会生成更新（浅蓝⾊）。

该研究首次表明，基于 Transformer 的大规模预训练模型可以通过一次性权重修剪压缩到高稀疏性，无需任何再训练，精度损失也很低。

值得注意的是，SparseGPT 的方法是局部的：在每个修剪步骤之后，它都会执行权重更新，旨在保留每一层的输入输出关系，这些更新是在没有任何全局梯度信息的情况下计算的。因此，大规模 GPT 模型的高度参数化似乎使这种方法能够直接识别密集预训练模型“近邻”中的稀疏精确模型。

另外，由于实验所采用的的准确度指标（困惑度）非常敏感，因此生成的稀疏模型输出似乎与密集模型的输出密切相关。

这项研究在缓解大模型的算力限制方面具有很大的积极意义，将来的一个工作方向是研究大模型的微调机制来进一步恢复精度，同时，扩大 SparseGPT 的方法在模型训练期间的适用性，将会减少训练大模型的计算成本。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

首个千亿模型压缩算法 SparseGPT 来了，降低算力成本的同时保持高精度

评论列表

评论