HMoE: Heterogeneous Mixture of Experts for Language Modeling

简介

混合专家模型（MoE）通过选择性激活模型参数的子集，提供了出色的性能和计算效率。传统上，MoE模型使用同质专家，每个专家具有相同的能力。然而，输入数据的复杂性差异需要具有不同能力的专家，而同质MoE妨碍了有效的专家专业化和高效的参数利用。在本研究中，我们提出了一种新颖的异质混合专家模型（HMoE），其中专家的大小不同，因此具有不同的能力。这种异质性允许更专业的专家更有效地处理不同的令牌复杂性。为了解决专家激活的不平衡问题，我们提出了一种新的训练目标，鼓励更频繁地激活较小的专家，提高计算效率和参数利用率。广泛的实验表明，HMoE在更少的激活参数下实现了更低的损失，并在各种预训练评估基准上优于传统的同质MoE模型。在接受后，将发布代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决传统的Mixture of Experts（MoE）模型中专家同质化的问题，提出了一种新的异质性Mixture of Experts（HMoE）模型，以更好地适应不同复杂度的输入数据。
关键思路

HMoE模型中的专家具有不同的大小和能力，可以更好地处理不同复杂度的输入数据，同时通过新的训练目标，鼓励更频繁地激活较小的专家，提高计算效率和参数利用率。
其它亮点

本文的实验结果表明，HMoE模型在各种预训练评估基准上实现了更低的损失，同时激活的参数更少，优于传统的同质化MoE模型。此外，本文将发布代码。
相关研究

最近的相关研究包括《Mixture of Experts with Adaptive Gating Network for Recommender Systems》和《Adaptive Mixture of Experts for Large Scale Hierarchical Classification》。

HMoE: Heterogeneous Mixture of Experts for Language Modeling

提问交流

提问交流