FloE: On-the-Fly MoE Inference on Memory-constrained GPU

向作者提问

NEW

简介

随着专家混合模型（MoE）的广泛应用，对内存受限设备上的高效推理的需求日益增长。尽管将专家参数卸载到CPU内存并在需要时加载激活的专家是一种潜在解决方案，但被激活专家的庞大体积却加重了有限的PCIe带宽负担，从而在延迟敏感场景中影响了其有效性。为了解决这一问题，我们提出了FloE，这是一种针对内存受限GPU的即时MoE推理系统。FloE基于这样一个洞见：稀疏激活的专家内部存在大量未被充分利用的冗余。它通过使用多种压缩技术对专家的内部参数矩阵进行优化，以减少数据传输负载，并结合低成本的稀疏预测，从而在资源受限设备上实现显著的实际推理加速。实验结果表明，FloE在Mixtral-8x7B模型中实现了每名专家参数9.3倍的压缩；能够在仅具备11GB显存的GPU上部署，使内存占用减少高达8.5倍；并且在单个GeForce RTX 3090上相比DeepSpeed-MII实现了48.7倍的推理加速——所有这些都仅伴随着4.4%到7.6%的平均性能下降。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在内存受限设备上高效运行Mixture-of-Experts (MoE) 模型的问题，尤其是当专家参数需要从CPU内存加载到GPU时，由于PCIe带宽限制导致的高延迟问题。这是一个随着MoE模型日益普及而逐渐显现的新问题。
关键思路

论文提出了一种名为FloE的系统，通过压缩专家内部参数矩阵来减少数据传输负载，并结合低成本稀疏预测技术实现加速推理。相比现有方法（如DeepSpeed-MII），FloE利用了激活专家中的冗余信息，从而显著降低内存占用和推理时间。
其它亮点

实验表明，FloE在Mixtral-8x7B模型上实现了9.3倍的参数压缩，减少了高达8.5倍的内存占用，并在单个GeForce RTX 3090 GPU上实现了48.7倍的推理加速，性能损失仅为4.4%-7.6%。此外，该研究可能涉及开源代码（需进一步确认），为未来在资源受限环境下的大规模模型部署提供了重要参考。值得深入研究的方向包括更高效的压缩算法以及针对不同硬件架构的优化策略。
相关研究

近期相关研究包括：1）DeepSpeed-MoE，它通过分布式训练支持大规模MoE模型；2）GShard，提出了基于分片的MoE模型训练方法；3）Switch Transformers，展示了稀疏激活在提升模型效率方面的潜力；4）Sparse MoE，探索了更细粒度的稀疏性以降低计算成本。这些研究共同构成了当前MoE模型优化的基础框架，而FloE则进一步专注于推理阶段的性能优化。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问