- 简介本文旨在同时提高混合专家(MoE)方法的有效性和效率。为此,我们提出了MoE ++,这是一个通用的异构MoE框架,集成了前馈网络(FFN)和零计算专家。具体而言,我们引入了三种零计算专家:零专家,复制专家和常数专家,它们分别对应于丢弃,跳过和替换操作。这种设计具有三个关键优点:(i)低计算开销:与香草MoE中所有令牌的统一混合机制不同,MoE ++允许每个令牌与动态数量的FFN进行交互,通过常向量进行调整,甚至完全跳过MoE层。 (ii)高性能:通过使简单令牌利用较少的FFN专家,MoE ++允许更多的专家专注于具有挑战性的令牌,从而释放比香草MoE更大的性能潜力。 (iii)部署友好:鉴于零计算专家具有可忽略的参数,我们可以在每个GPU上部署所有零计算专家,消除了与在不同GPU上分布的FFN专家相关的重要通信开销和专家负载不平衡。此外,我们利用门控残差,使每个令牌在选择适当的专家时考虑在前一层中采取的路径。广泛的实验结果表明,MoE ++与相同大小的香草MoE模型相比,实现了更好的性能,并提供了1.1-2.1倍的专家前向吞吐量,为开发先进而高效的MoE相关模型奠定了坚实的基础。
-
- 图表
- 解决问题本论文旨在提高混合专家(MoE)方法的效率和效果。为此,提出了MoE++框架,该框架将前馈神经网络(FFN)和零计算专家进行了整合,提供了三种零计算专家,以实现舍弃、跳过和替换操作。
- 关键思路论文的关键思路是使用MoE++框架,通过引入零计算专家,使每个令牌能够与动态数量的FFN进行交互,或者被常数向量调整,甚至完全跳过MoE层,从而提高效率和效果。
- 其它亮点论文提出的MoE++框架具有三个亮点:低计算开销、高性能和部署友好。论文还使用门控残差,使每个令牌在选择适当的专家时考虑前一层中采取的路径。实验结果表明,MoE++模型与相同大小的基准模型相比,可以实现更好的性能,同时提供1.1-2.1倍的专家前向吞吐量。
- 在这个领域中,最近的相关研究包括:《Mixture of Experts with Adaptive Gating Units for Deep Learning》、《A Mixture of Experts Approach to Estimation and Inference in Text Classification》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流