OLMoE: Open Mixture-of-Experts Language Models

2024年09月03日
  • 简介
    我们介绍了OLMoE,这是一个完全开放的、使用稀疏的专家混合(MoE)技术的最先进的语言模型。OLMoE-1B-7B具有70亿(B)个参数,但每个输入标记仅使用1B。我们对其进行了5000亿标记的预训练,并进一步适应它以创建OLMoE-1B-7B-Instruct。我们的模型优于所有可用的具有类似活动参数的模型,甚至超过了像Llama2-13B-Chat和DeepSeekMoE-16B这样更大的模型。我们展示了关于MoE训练的各种实验,分析了我们模型中的路由,表明其高度专业化,并开源了我们工作的所有方面:模型权重、训练数据、代码和日志。
  • 图表
  • 解决问题
    本论文旨在介绍一种全新的语言模型OLMoE,通过使用稀疏的Mixture-of-Experts(MoE)来优化模型性能。该模型可以在仅使用1B输入标记的情况下,具有7B参数。论文试图解决如何通过MoE来提高语言模型性能的问题。
  • 关键思路
    论文的关键思路是使用稀疏的Mixture-of-Experts(MoE)来优化语言模型的性能。相比当前领域的研究,该论文的思路在于使用MoE实现高度特殊化的路由,提高了模型的性能。
  • 其它亮点
    该论文的亮点包括:1.使用MoE实现高度特殊化的路由,提高了模型的性能;2.使用1B输入标记的情况下,具有7B参数;3.在5万亿个标记上进行预训练,并进一步适应创建OLMoE-1B-7B-Instruct;4.实验结果表明,该模型优于所有可用的类似参数的模型,甚至超过了更大的模型如Llama2-13B-Chat和DeepSeekMoE-16B;5.开源了所有方面的工作,包括模型权重、训练数据、代码和日志。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Llama: Large-scale Language Model for Multi-task and Meta-learning(Llama2-13B-Chat);2. DeepSeekMoE: Efficient Mixture of Experts for Large-scale Language Modeling(DeepSeekMoE-16B)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论