- 简介混合专家模型(MoE)通过选择性激活模型参数的子集,提供了出色的性能和计算效率。传统上,MoE模型使用同质专家,每个专家具有相同的能力。然而,输入数据的复杂性差异需要具有不同能力的专家,而同质MoE妨碍了有效的专家专业化和高效的参数利用。在本研究中,我们提出了一种新颖的异质混合专家模型(HMoE),其中专家的大小不同,因此具有不同的能力。这种异质性允许更专业的专家更有效地处理不同的令牌复杂性。为了解决专家激活的不平衡问题,我们提出了一种新的训练目标,鼓励更频繁地激活较小的专家,提高计算效率和参数利用率。广泛的实验表明,HMoE在更少的激活参数下实现了更低的损失,并在各种预训练评估基准上优于传统的同质MoE模型。在接受后,将发布代码。
-
- 图表
- 解决问题本文旨在解决传统的Mixture of Experts(MoE)模型中专家同质化的问题,提出了一种新的异质性Mixture of Experts(HMoE)模型,以更好地适应不同复杂度的输入数据。
- 关键思路HMoE模型中的专家具有不同的大小和能力,可以更好地处理不同复杂度的输入数据,同时通过新的训练目标,鼓励更频繁地激活较小的专家,提高计算效率和参数利用率。
- 其它亮点本文的实验结果表明,HMoE模型在各种预训练评估基准上实现了更低的损失,同时激活的参数更少,优于传统的同质化MoE模型。此外,本文将发布代码。
- 最近的相关研究包括《Mixture of Experts with Adaptive Gating Network for Recommender Systems》和《Adaptive Mixture of Experts for Large Scale Hierarchical Classification》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流