SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

2023年12月23日
  • 简介
    我们引入了深度上采样(DUS)技术,一种简单而高效的基于低层次模型(LLMs)的上采样方法。与专家混合(MoE)相比,DUS不需要复杂的训练和推理变化。利用DUS,我们构建了SOLAR 10.7B,一个具有107亿参数的大型语言模型(LLM),在各种自然语言处理(NLP)任务中表现出卓越的性能。比较评估表明,SOLAR 10.7B优于现有的开源预训练LLMs,如Llama 2和Mistral 7B。我们还提出了SOLAR 10.7B-Instruct,一种针对指令跟随能力进行微调的变体,超过了Mixtral-8x7B。SOLAR 10.7B在Apache 2.0许可下公开发布,促进了LLM领域的广泛访问和应用。
  • 图表
  • 解决问题
    本文旨在提出一种新的技术——深度上采样(DUS),以更高效、更有效的方式对基础LLMs进行上采样,构建更大的语言模型,以提高自然语言处理(NLP)任务的性能。
  • 关键思路
    DUS技术可以在不需要复杂的训练和推理变化的情况下,对基础LLMs进行上采样,从而构建更大的语言模型。与MoE相比,DUS更简单易用。
  • 其它亮点
    本文构建了一个具有10.7亿个参数的大型语言模型——SOLAR 10.7B,并在各种NLP任务中展现了卓越的性能。实验结果表明,SOLAR 10.7B优于现有的开源预训练LLMs,如Llama 2和Mistral 7B。此外,本文还提出了SOLAR 10.7B-Instruct,这是一种针对指令跟随能力进行微调的变体,超过了Mixtral-8x7B。SOLAR 10.7B是公开可用的,采用Apache 2.0许可证,促进了LLM领域的广泛访问和应用。
  • 相关研究
    在这个领域中,最近的相关研究有:《Language Models are Few-Shot Learners》、《GPT-3: Language Models are Few-Shot Learners》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论