Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

2024年06月10日
  • 简介
    利用激活稀疏性是一种有前途的方法,可以在不影响性能的情况下显著加速大型语言模型(LLMs)的推理过程。然而,激活稀疏性是由激活函数决定的,常用的函数如SwiGLU和GeGLU表现出有限的稀疏性。简单地用ReLU替换这些函数无法达到足够的稀疏性。此外,不充足的训练数据可能进一步增加性能下降的风险。为解决这些挑战,我们提出了一种新颖的dReLU函数,旨在提高LLM激活稀疏性,以及高质量的训练数据混合比例,以促进有效的稀疏化。此外,我们利用混合专家(MoE)模型中前馈网络(FFN)专家内的稀疏激活模式,进一步提高效率。通过将我们的神经元稀疏化方法应用于Mistral和Mixtral模型,每个推理迭代仅激活25亿和43亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了2-5倍的解码加速。值得注意的是,在移动电话上,我们的TurboSparse-Mixtral-47B实现了每秒11个标记的推理速度。我们的模型可在\url{https://huggingface.co/PowerInfer}上获得。
  • 图表
  • 解决问题
    如何利用激活稀疏性提高大型语言模型的推理速度和性能?
  • 关键思路
    提出了一种新的dReLU激活函数和高质量的训练数据混合比例来提高语言模型的激活稀疏性,同时利用Mixture-of-Experts模型中的Feed-Forward Network专家内部的稀疏激活模式进一步提高效率。
  • 其它亮点
    实验结果表明,该方法可以在不降低性能的情况下实现2-5倍的解码加速,甚至在手机上实现每秒11个标记的推理速度。模型已在Hugging Face上开源。
  • 相关研究
    该领域的相关研究包括利用激活稀疏性来加速神经网络推理的方法,如SwiGLU和GeGLU激活函数。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论