Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

2024年07月15日
  • 简介
    我们介绍了一种名为 Q-Sparse 的简单而有效的方法,用于训练稀疏激活的大型语言模型(LLMs)。Q-Sparse 可以实现 LLMs 中激活的完全稀疏,这可以在推理时带来显着的效率提升。这是通过对激活应用 top-K 稀疏化和应用直通估计器进行训练来实现的。我们还介绍了用于批量训练和推理的块 Q-Sparse。这项工作的关键结果是,(1) Q-Sparse 可以在推理时比基线 LLMs 更加高效,同时实现与其相当的结果;(2) 我们提出了适用于稀疏激活 LLMs 的推理最优缩放定律;(3) Q-Sparse 在不同的设置中都很有效,包括从头开始训练、继续训练现成的 LLMs 和微调;(4) Q-Sparse 适用于完整精度和 1 位 LLMs(例如,BitNet b1.58)。特别是,BitNet b1.58 和 Q-Sparse 的协同作用(可以配备 MoE)为革命化未来 LLMs 的效率,包括成本和能源消耗,提供了基石和明确的道路。
  • 图表
  • 解决问题
    Q-Sparse论文旨在解决大型语言模型(LLMs)中稀疏激活的训练问题,以提高推理效率。
  • 关键思路
    Q-Sparse通过将top-K稀疏化应用于激活和直通估计器应用于训练,实现了LLMs中激活的完全稀疏,从而在推理时带来了显着的效率提升。同时,Q-Sparse还引入了Block Q-Sparse以进行批量训练和推理。
  • 其它亮点
    该论文的亮点包括:(1) Q-Sparse可以在推理时显著提高效率,同时实现与基准LLMs相当的结果;(2) 论文提出了适用于稀疏激活LLMs的推理最优缩放定律;(3) Q-Sparse在不同的设置下都很有效,包括从头开始训练、继续训练现有的LLMs和微调;(4) Q-Sparse适用于全精度和1位LLMs,特别是BitNet b1.58和Q-Sparse的协同作用提供了未来LLMs效率革命的基石。
  • 相关研究
    在这个领域中,还有一些相关的研究,例如《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》和《Sparsely-Gated Mixture-of-Experts Layers》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论