HMoE: Heterogeneous Mixture of Experts for Language Modeling

2024年08月20日
  • 简介
    混合专家模型(MoE)通过选择性激活模型参数的子集,提供了出色的性能和计算效率。传统上,MoE模型使用同质专家,每个专家具有相同的能力。然而,输入数据的复杂性差异需要具有不同能力的专家,而同质MoE妨碍了有效的专家专业化和高效的参数利用。在本研究中,我们提出了一种新颖的异质混合专家模型(HMoE),其中专家的大小不同,因此具有不同的能力。这种异质性允许更专业的专家更有效地处理不同的令牌复杂性。为了解决专家激活的不平衡问题,我们提出了一种新的训练目标,鼓励更频繁地激活较小的专家,提高计算效率和参数利用率。广泛的实验表明,HMoE在更少的激活参数下实现了更低的损失,并在各种预训练评估基准上优于传统的同质MoE模型。在接受后,将发布代码。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决传统的Mixture of Experts(MoE)模型中专家同质化的问题,提出了一种新的异质性Mixture of Experts(HMoE)模型,以更好地适应不同复杂度的输入数据。
  • 关键思路
    HMoE模型中的专家具有不同的大小和能力,可以更好地处理不同复杂度的输入数据,同时通过新的训练目标,鼓励更频繁地激活较小的专家,提高计算效率和参数利用率。
  • 其它亮点
    本文的实验结果表明,HMoE模型在各种预训练评估基准上实现了更低的损失,同时激活的参数更少,优于传统的同质化MoE模型。此外,本文将发布代码。
  • 相关研究
    最近的相关研究包括《Mixture of Experts with Adaptive Gating Network for Recommender Systems》和《Adaptive Mixture of Experts for Large Scale Hierarchical Classification》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问