- 简介在这份技术报告中,我们介绍了Skywork-MoE的训练方法,这是一个具有1460亿参数和16个专家的高性能混合专家(MoE)大型语言模型(LLM),它是从我们现有的Skywork-13B模型的密集检查点初始化的。我们探讨了升级与从头开始训练初始化的比较有效性。我们的发现表明,这两种方法的选择应该考虑现有密集检查点的性能和MoE训练预算。我们强调了两种创新技术:门控逻辑归一化,它可以改善专家的多样性,以及自适应辅助损失系数,允许对辅助损失系数进行层特定的调整。我们的实验结果验证了这些方法的有效性。利用这些技术和见解,我们在我们的SkyPile语料库的一个压缩子集上训练了我们的升级版Skywork-MoE。评估结果表明,我们的模型在各种基准测试中表现出强大的性能。
-
- 图表
- 解决问题本论文旨在介绍Skywork-MoE模型的训练方法,该模型是一个具有1460亿参数和16个专家的高性能混合专家大语言模型。研究比较了从头开始训练和从现有的密集检查点进行升级的有效性。
- 关键思路本文提出了两种创新技术:门控逻辑归一化和自适应辅助损失系数,以提高模型的性能。
- 其它亮点实验结果表明,本文提出的方法可以提高模型的性能。本文还介绍了模型训练的实验设计,使用的数据集以及开源代码等方面的亮点。
- 最近的相关研究包括Turing NLG、GShard和T5等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流