AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies

2024年08月13日
  • 简介
    近年来,随着大型语言模型在各个领域的快速应用,这些模型的规模逐渐增加,它们的预训练所需的资源也呈指数级增长。从头开始训练一个大型语言模型需要大量的计算资源,而从较小的模型进行扩展则是一种更高效的方法,因此受到了广泛关注。在本文中,我们提出了AquilaMoE,这是一种先进的双语8*16B专家混合(MoE)语言模型,它具有8个专家,每个专家有160亿个参数,并使用一种名为EfficientScale的创新训练方法开发。这种方法通过一个两阶段的过程来优化性能,同时最小化数据需求。第一阶段称为“Scale-Up”,它使用来自预训练较小模型的权重来初始化更大的模型,实现了大量的知识转移和显著减少数据的连续预训练。第二阶段“Scale-Out”使用预训练的密集模型来初始化MoE专家,进一步增强了知识转移和性能。在1.8B和7B模型上进行的广泛验证实验比较了各种初始化方案,实现了在连续预训练过程中保持和减少损失的模型。利用最优方案,我们成功地训练了一个16B模型,随后训练了8*16B AquilaMoE模型,证明了性能和训练效率的显著提高。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过提出一种名为EfficientScale的创新训练方法,解决从较小的语言模型扩展到大型语言模型的问题,以及减少预训练所需的数据资源。
  • 关键思路
    EfficientScale方法包括两个阶段:Scale-Up和Scale-Out,前者使用较小的预训练模型初始化大型模型,后者使用预训练的密集模型初始化MoE专家,从而实现知识传递和性能提升。
  • 其它亮点
    论文提出的AquilaMoE是一个双语的8*16B混合专家语言模型,具有8个专家,每个专家有160亿个参数。通过实验验证,论文的方法在连续预训练过程中能够降低损失并提高性能。此外,论文使用1.8B和7B模型进行了广泛的验证实验,并开源了代码。
  • 相关研究
    近期的相关研究包括:《Scaling Laws for Neural Language Models》、《Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问