MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts

2024年10月09日
  • 简介
    本文旨在同时提高混合专家(MoE)方法的有效性和效率。为此,我们提出了MoE ++,这是一个通用的异构MoE框架,集成了前馈网络(FFN)和零计算专家。具体而言,我们引入了三种零计算专家:零专家,复制专家和常数专家,它们分别对应于丢弃,跳过和替换操作。这种设计具有三个关键优点:(i)低计算开销:与香草MoE中所有令牌的统一混合机制不同,MoE ++允许每个令牌与动态数量的FFN进行交互,通过常向量进行调整,甚至完全跳过MoE层。 (ii)高性能:通过使简单令牌利用较少的FFN专家,MoE ++允许更多的专家专注于具有挑战性的令牌,从而释放比香草MoE更大的性能潜力。 (iii)部署友好:鉴于零计算专家具有可忽略的参数,我们可以在每个GPU上部署所有零计算专家,消除了与在不同GPU上分布的FFN专家相关的重要通信开销和专家负载不平衡。此外,我们利用门控残差,使每个令牌在选择适当的专家时考虑在前一层中采取的路径。广泛的实验结果表明,MoE ++与相同大小的香草MoE模型相比,实现了更好的性能,并提供了1.1-2.1倍的专家前向吞吐量,为开发先进而高效的MoE相关模型奠定了坚实的基础。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提高混合专家(MoE)方法的效率和效果。为此,提出了MoE++框架,该框架将前馈神经网络(FFN)和零计算专家进行了整合,提供了三种零计算专家,以实现舍弃、跳过和替换操作。
  • 关键思路
    论文的关键思路是使用MoE++框架,通过引入零计算专家,使每个令牌能够与动态数量的FFN进行交互,或者被常数向量调整,甚至完全跳过MoE层,从而提高效率和效果。
  • 其它亮点
    论文提出的MoE++框架具有三个亮点:低计算开销、高性能和部署友好。论文还使用门控残差,使每个令牌在选择适当的专家时考虑前一层中采取的路径。实验结果表明,MoE++模型与相同大小的基准模型相比,可以实现更好的性能,同时提供1.1-2.1倍的专家前向吞吐量。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Mixture of Experts with Adaptive Gating Units for Deep Learning》、《A Mixture of Experts Approach to Estimation and Inference in Text Classification》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问