Multi-Head Mixture-of-Experts

2024年04月23日
  • 简介
    Sparse Mixtures of Experts(SMoE)通过不显著增加训练和推理成本来扩展模型容量,但存在以下两个问题:(1)专家激活率低,只有少量专家被激活进行优化。(2)缺乏对单个标记中多个语义概念的细粒度分析能力。我们提出了Multi-Head Mixture-of-Experts(MH-MoE),它采用多头机制将每个标记分成多个子标记。然后,这些子标记被分配到并由不同的专家并行处理,然后无缝地重新集成到原始标记形式中。多头机制使模型能够共同关注来自不同专家的各种表示空间的信息,同时显著增强了专家激活率,从而加深了上下文理解并减轻了过拟合。此外,我们的MH-MoE易于实现,并与其他SMoE优化方法解耦,因此易于与其他SMoE模型集成以提高性能。在三个任务(英语为中心的语言建模,多语言语言建模和遮蔽多模态建模任务)上进行的广泛实验结果证明了MH-MoE的有效性。
  • 图表
  • 解决问题
    本文提出了Multi-Head Mixture-of-Experts (MH-MoE)来解决Sparse Mixtures of Experts (SMoE)中的低专家激活和缺乏对单个标记中多个语义概念的细粒度分析能力的问题。
  • 关键思路
    MH-MoE使用多头机制将每个标记分成多个子标记,然后并行地分配和处理这些子标记,以及无缝地重新集成到原始标记形式中。多头机制使模型能够集体关注来自不同专家的各种表示空间的信息,同时显着增强了专家激活,从而加深了上下文理解并减轻了过拟合。
  • 其它亮点
    实验结果表明,MH-MoE在英语语言建模、多语言语言建模和遮蔽多模态建模任务中均表现出良好的效果。MH-MoE易于实现,与其他SMoE优化方法分离,因此易于与其他SMoE模型集成以提高性能。
  • 相关研究
    相关研究包括SMoE模型及其优化方法,以及其他使用多头机制的模型,如Transformer。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论