- 简介最近,大型语言模型(LLMs)在特定任务负载以及给定提示的一般任务中表现出惊人的性能。然而,为了实现前所未有的性能,最近的LLMs使用了数十亿到数万亿的参数,这些参数由于其极大的计算和内存需求,阻碍了这些模型的广泛应用。为了解决这个问题,各种模型压缩方法正在积极研究中。在这项工作中,我们提出了SDQ(稀疏分解量化),利用结构化稀疏性和量化来实现高计算和内存效率。从我们的评估中,我们观察到SDQ可以实现4倍的有效计算吞吐量,而质量下降不到1%。
- 图表
- 解决问题提高大型语言模型的计算和存储效率
- 关键思路使用SDQ算法,结合稀疏性、分解和量化技术,提高大型语言模型的计算和存储效率
- 其它亮点SDQ算法可以在不降低质量的情况下,实现4倍的计算效率提升;实验结果表明SDQ算法在多个数据集上都取得了较好的性能;论文提供了开源代码
- 近期的相关研究包括:1. Efficient Transformers: A Survey, 2. TinyBERT: Distilling BERT for Natural Language Understanding
沙发等你来抢
去评论
评论
沙发等你来抢