SDQ: Sparse Decomposed Quantization for LLM Inference

2024年06月19日
  • 简介
    最近,大型语言模型(LLMs)在特定任务负载以及给定提示的一般任务中表现出惊人的性能。然而,为了实现前所未有的性能,最近的LLMs使用了数十亿到数万亿的参数,这些参数由于其极大的计算和内存需求,阻碍了这些模型的广泛应用。为了解决这个问题,各种模型压缩方法正在积极研究中。在这项工作中,我们提出了SDQ(稀疏分解量化),利用结构化稀疏性和量化来实现高计算和内存效率。从我们的评估中,我们观察到SDQ可以实现4倍的有效计算吞吐量,而质量下降不到1%。
  • 图表
  • 解决问题
    提高大型语言模型的计算和存储效率
  • 关键思路
    使用SDQ算法,结合稀疏性、分解和量化技术,提高大型语言模型的计算和存储效率
  • 其它亮点
    SDQ算法可以在不降低质量的情况下,实现4倍的计算效率提升;实验结果表明SDQ算法在多个数据集上都取得了较好的性能;论文提供了开源代码
  • 相关研究
    近期的相关研究包括:1. Efficient Transformers: A Survey, 2. TinyBERT: Distilling BERT for Natural Language Understanding
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论