- 简介随着大型语言模型(LLM)的广泛采用,许多深度学习从业者正在寻找更高效运行这些模型的策略。其中一种策略是使用稀疏混合专家(MoE) - 一种模型架构,其中仅对于任何给定的输入,模型层的一小部分是活动的。这种属性使得基于MoE的语言模型比其密集的对应物更快地生成标记,但由于具有多个专家,它也增加了模型大小。不幸的是,这使得最先进的MoE语言模型难以在没有高端GPU的情况下运行。在这项工作中,我们研究了在具有有限加速器内存的消费者硬件上运行大型MoE语言模型的问题。我们建立在参数卸载算法的基础上,并提出了一种新的策略,通过利用MoE LLM的固有属性加速卸载。使用这种策略,我们可以在桌面硬件和免费的Google Colab实例上以混合量化的方式运行Mixtral-8x7B。
-
- 图表
- 解决问题本论文旨在解决在消费者硬件上运行大型Mixture-of-Experts(MoE)语言模型的问题。MoE模型的多个专家会增加模型大小,使得这些最先进的MoE语言模型难以在没有高端GPU的情况下运行。
- 关键思路本论文提出了一种新的策略,通过利用MoE LLM的固有属性来加速卸载,以加速卸载参数。该策略建立在参数卸载算法的基础上,并且能够在桌面硬件和免费的Google Colab实例上运行Mixtral-8x7B。
- 其它亮点本论文的实验设计非常值得关注,使用了混合量化的Mixtral-8x7B模型,并在桌面硬件和免费的Google Colab实例上进行了测试。此外,该论文的策略可以应用于其他类型的MoE模型,这是一个非常有前途的方向。
- 最近在这个领域中,还有一些相关的研究,如Sparse Transformer、Reformer和Linformer等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流