Fast Inference of Mixture-of-Experts Language Models with Offloading

简介

随着大型语言模型（LLM）的广泛采用，许多深度学习从业者正在寻找更高效运行这些模型的策略。其中一种策略是使用稀疏混合专家（MoE） - 一种模型架构，其中仅对于任何给定的输入，模型层的一小部分是活动的。这种属性使得基于MoE的语言模型比其密集的对应物更快地生成标记，但由于具有多个专家，它也增加了模型大小。不幸的是，这使得最先进的MoE语言模型难以在没有高端GPU的情况下运行。在这项工作中，我们研究了在具有有限加速器内存的消费者硬件上运行大型MoE语言模型的问题。我们建立在参数卸载算法的基础上，并提出了一种新的策略，通过利用MoE LLM的固有属性加速卸载。使用这种策略，我们可以在桌面硬件和免费的Google Colab实例上以混合量化的方式运行Mixtral-8x7B。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决在消费者硬件上运行大型Mixture-of-Experts（MoE）语言模型的问题。MoE模型的多个专家会增加模型大小，使得这些最先进的MoE语言模型难以在没有高端GPU的情况下运行。
关键思路

本论文提出了一种新的策略，通过利用MoE LLM的固有属性来加速卸载，以加速卸载参数。该策略建立在参数卸载算法的基础上，并且能够在桌面硬件和免费的Google Colab实例上运行Mixtral-8x7B。
其它亮点

本论文的实验设计非常值得关注，使用了混合量化的Mixtral-8x7B模型，并在桌面硬件和免费的Google Colab实例上进行了测试。此外，该论文的策略可以应用于其他类型的MoE模型，这是一个非常有前途的方向。
相关研究

最近在这个领域中，还有一些相关的研究，如Sparse Transformer、Reformer和Linformer等。

Fast Inference of Mixture-of-Experts Language Models with Offloading

提问交流

提问交流