DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

2024年01月11日
  • 简介
    在大语言模型时代,混合专家(MoE)是一个有前途的架构,用于在扩大模型参数规模时管理计算成本。然而,传统的MoE架构如GShard,激活$N$个专家中的前$K$个,面临确保专家专业化的挑战,即每个专家获取非重叠和专注的知识。为此,我们提出了DeepSeekMoE架构,以实现终极专家专业化。它包括两个主要策略:(1)将专家细分为$mN$个,并激活其中的$mK$个,允许更灵活地组合激活的专家;(2)将$K_s$个专家隔离为共享专家,旨在捕捉共同知识并减少路由专家中的冗余。我们从一个规模适中的2B参数开始,证明DeepSeekMoE 2B的性能与具有1.5倍专家参数和计算的GShard 2.9B相当。此外,DeepSeekMoE 2B几乎接近具有相同总参数数量的稠密对应物的性能,这设置了MoE模型的上限。随后,我们将DeepSeekMoE扩展到16B参数,并展示它与LLaMA2 7B的性能相当,计算量仅为其40%左右。此外,我们初步尝试将DeepSeekMoE扩展到145B参数,始终验证其相对于GShard架构的实质性优势,并显示其性能与DeepSeek 67B相当,仅使用28.5%(甚至18.2%)的计算量。
  • 图表
  • 解决问题
    本文试图通过提出DeepSeekMoE架构解决Mixture-of-Experts(MoE)中专家专业化的问题,即确保每个专家获取非重叠和专注的知识。
  • 关键思路
    DeepSeekMoE架构包括两个主要策略:1.将专家细分为mN个,并激活其中的mK个,从而允许更灵活的激活专家的组合;2.将Ks个专家隔离为共享专家,旨在捕获共同知识并减轻路由专家中的冗余。
  • 其它亮点
    通过实验,DeepSeekMoE 2B的性能与GShard 2.9B相当,DeepSeekMoE 2B几乎接近具有相同总参数数量的密集对应物的性能。DeepSeekMoE 16B的性能与LLaMA2 7B相当,计算量只有约40%。DeepSeekMoE在145B参数的规模上的表现也优于GShard架构,并且使用的计算量仅为DeepSeek 67B的28.5%(甚至18.2%)。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如GShard和LLaMA2。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论