Upcycling Large Language Models into Mixture of Experts

2024年10月10日
  • 简介
    将预训练的密集语言模型升级为稀疏的专家混合(MoE)模型是一种提高已训练模型容量的有效方法。然而,大规模升级的最佳技术仍不清楚。在这项工作中,我们对千亿级语言模型的升级方法和超参数进行了广泛研究。我们提出了一种新的“虚拟组”初始化方案和权重缩放方法,以实现升级为细粒度MoE架构。通过消融实验,我们发现升级优于继续密集模型训练。此外,我们还表明,softmax-然后-topK专家路由比topK-然后-softmax方法更好,并且更高粒度的MoE可以帮助提高准确性。最后,我们将Nemotron-4 15B升级到1T令牌,并将其与同样在1T令牌上连续训练的模型进行了比较:连续训练的模型实现了65.3%的MMLU,而升级模型实现了67.6%。我们的结果提供了有效利用升级构建MoE语言模型的见解和最佳实践。
  • 图表
  • 解决问题
    本论文旨在探讨在已经训练好的模型中,通过升级到稀疏混合专家模型(MoE)模型的方式来提高模型容量的最佳技术和超参数,并验证其有效性。
  • 关键思路
    本论文提出了一种新颖的“虚拟组”初始化方案和权重缩放方法,以实现升级到细粒度MoE架构,并通过实验发现升级模型优于持续密集模型训练。
  • 其它亮点
    本论文通过实验研究了升级方法和超参数对十亿参数级别的语言模型的影响,并提出了一种新颖的初始化方案和权重缩放方法。实验结果表明,升级模型优于持续密集模型训练。论文还探讨了softmax-then-topK专家路由和更高粒度的MoEs如何提高准确性。最后,作者升级了Nemotron-4 15B模型,并将其与同样在1T令牌上进行持续训练的模型进行比较。
  • 相关研究
    最近,在这个领域中,也有其他相关研究,例如《Scaling Laws for Neural Language Models》、《Adaptive Input Representations for Neural Language Modeling》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论