- 简介Mixture-of-Experts(MoE)作为扩展大型语言模型(LLM)的有前途的框架,已经越来越受到欢迎。然而,在大规模环境下从头开始训练MoE仍然存在数据不足和不稳定性问题。受此限制的启发,我们研究如何从现有的密集大型语言模型构建MoE模型。具体来说,基于著名的LLaMA-27B模型,我们通过以下步骤获得MoE模型:(1)专家构建,将原始前馈网络(FFNs)的参数划分为多个专家;(2)持续预训练,进一步训练转换后的MoE模型和附加的门网络。在本文中,我们全面探讨了不同的专家构建方法和各种数据采样策略,经过这些阶段,我们的LLaMA-MoE模型可以保持语言能力,并将输入令牌路由到具有部分激活参数的特定专家。经验证,通过训练200B个令牌,LLaMA-MoE-3.5B模型显著优于包含类似激活参数的密集模型。源代码和模型可在https://github.com/pjlab-sys4nlp/llama-moe上获得。
- 图表
- 解决问题本论文旨在探讨从现有的密集大语言模型中构建MoE模型的方法,以解决MoE模型训练中的数据饥饿和不稳定性问题。
- 关键思路论文的关键思路是在现有的LLaMA-2 7B模型的基础上,通过专家构建和持续预训练的方法,将原始前馈网络(FFN)的参数分成多个专家,并进一步训练转换后的MoE模型和附加的门网络。
- 其它亮点论文采用了不同的专家构建方法和各种数据采样策略进行持续预训练,实验表明,LLaMA-MoE-3.5B模型在训练200B个标记后,明显优于包含类似激活参数的密集模型。研究还提供了源代码和模型。
- 在这个领域中,最近还有一些相关研究,例如《Scaling Laws for Neural Language Models》、《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》等。
沙发等你来抢
去评论
评论
沙发等你来抢