MoE-Beyond: Learning-Based Expert Activation Prediction on Edge Devices

2025年08月23日
  • 简介
    由于内存限制,在边缘设备上部署大规模混合专家(MoE)模型面临重大挑战。虽然MoE架构通过在每次推理时仅激活一部分专家来实现计算资源的高效利用,但它们需要精细的内存管理,以在资源受限的环境中高效运行。传统的基于启发式的专家缓存策略(如MoE-Infinity)在模型参数规模扩大时难以维持高缓存命中率。在本研究中,我们提出了MoE-Beyond,这是一种基于学习的专家激活预测器,用于预测自回归解码过程中的专家激活情况。我们将该任务定义为一个多标签序列预测问题,并利用从LDJnr-Puffin数据集[5]中提取的6600万条专家激活轨迹,基于DeepSeek-V2-Chat-Lite MoE模型训练了一个轻量级的Transformer模型。我们的预测器在未见过的WebGLM-QA数据集[6]提示上表现出良好的泛化能力,实现了97.5%的准确率和86.6%的F1分数。模拟实验结果表明,在GPU缓存仅能容纳10%专家的情况下,MoE-Beyond将GPU缓存命中率从17%提升至72%,优于启发式基线方法。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决在边缘设备上部署大规模Mixture-of-Experts(MoE)模型所面临的内存瓶颈问题,尤其是如何通过预测专家激活行为来提高缓存命中率,从而优化模型在资源受限环境下的推理效率。这是一个随着模型规模扩大和边缘计算需求增长而日益突出的新问题。
  • 关键思路
    论文提出MoE-Beyond,一个基于学习的专家激活预测器,通过将专家激活预测建模为多标签序列预测任务,使用轻量级Transformer模型进行训练,从而在推理过程中提前加载可能被激活的专家至GPU缓存中,显著提升缓存命中率。这一思路首次将学习方法引入MoE模型的专家激活预测与缓存管理中,相比传统启发式方法更具泛化能力和预测精度。
  • 其它亮点
    1. 使用来自DeepSeek-V2-Chat-Lite MoE的6600万条专家激活轨迹进行训练,模型在未见过的WebGLM-QA数据集上达到97.5%的预测准确率和86.6%的F1分数。 2. 在GPU缓存仅能容纳10%专家的情况下,MoE-Beyond将缓存命中率从17%提升至72%,显著优于MoE-Infinity等启发式策略。 3. 论文为MoE模型在边缘设备上的高效部署提供了一种全新的缓存优化范式,具有较高的工程落地潜力。 4. 未来研究方向包括将预测器轻量化以适应边缘端训练、探索更细粒度的缓存调度策略,以及将方法推广至更多MoE架构和任务场景。
  • 相关研究
    1. MoE-Infinity: A Heuristic-Based Caching Strategy for Large MoE Models on Edge Devices 2. Efficient Training and Inference for Sparse Mixture-of-Experts in Large Language Models 3. Sparsity in Deep Learning: A Reappraisal of its Benefits and Challenges 4. Dynamic Sparse Training for Large-Scale Language Understanding Tasks 5. EdgeMoE: Edge-Friendly Mixture-of-Experts for Efficient Inference
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问