JetMoE: Reaching Llama2 Performance with 0.1M Dollars

2024年04月11日
  • 简介
    大型语言模型(LLMs)已经取得了显著成果,但它们日益增长的资源需求已成为发展强大且易于访问的超人类智能的主要障碍。本报告介绍了JetMoE-8B,这是一种新的LLM,使用不到10万美元的资金,从精心混合的开源语料库中提取了1.25T个标记,并使用了30,000个H100 GPU小时进行训练。尽管成本低廉,JetMoE-8B表现出色,超过了Llama2-7B模型,而JetMoE-8B-Chat则超过了Llama2-13B-Chat模型。这些结果表明,LLM的训练成本可以比通常认为的要低得多。JetMoE-8B基于高效的稀疏门控专家混合(SMoE)架构,由注意力和前馈专家组成。两个层都是稀疏激活的,使得JetMoE-8B只需要8B个参数,而每个输入标记只激活2B,与Llama2-7B相比,推理计算减少了约70%。此外,JetMoE-8B非常开放,面向学术界,仅使用公共数据集和训练代码。本报告详细介绍了所有训练参数和数据混合,以促进未来开放基础模型的发展。这种透明度旨在鼓励合作和进一步发展可访问和高效的LLMs领域。模型权重可在https://github.com/myshell-ai/JetMoE上公开获取。
  • 图表
  • 解决问题
    本论文旨在通过使用较少的资源来训练一个大规模语言模型,以解决当前大规模语言模型面临的资源需求问题。
  • 关键思路
    论文提出了一种基于SMoE架构的JetMoE-8B模型,通过稀疏激活的方式来减少推理计算量,同时使用公共数据集和训练代码,实现了高度开放和学术友好。
  • 其它亮点
    JetMoE-8B模型的训练成本低于10万美元,但表现出色,超过了Llama2-7B模型和Llama2-13B-Chat模型。论文提供了详细的训练参数和数据混合,以促进未来在开放基础模型的发展方面的合作和进一步研究。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如GPT-3、Turing-NLG、CLIP等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论