SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

2023年12月23日
  • 简介
    我们介绍了一个名为SOLAR 10.7B的大型语言模型(LLM),它有107亿个参数,在各种自然语言处理(NLP)任务中表现优异。受到最近高效升级LLM的努力的启发,我们提出了一种称为深度升级(DUS)的LLM缩放方法,它包括深度缩放和持续预训练。与其他使用专家混合的LLM升级方法不同,DUS不需要复杂的更改即可高效地进行训练和推理。我们通过实验证明,DUS简单而有效,可以将高性能LLM从小型LLM中扩展。在DUS模型的基础上,我们还提出了SOLAR 10.7B-Instruct变体,用于指令跟随能力的微调,超过了Mixtral-8x7B-Instruct。SOLAR 10.7B已在Apache 2.0许可下公开,促进LLM领域的广泛访问和应用。
  • 图表
  • 解决问题
    本论文旨在通过提出一种名为深度上采样(DUS)的方法,扩大大型语言模型(LLM)的规模,以提高其在自然语言处理(NLP)任务中的性能。
  • 关键思路
    深度上采样(DUS)方法包括深度缩放和持续预训练,能够简单而有效地扩大高性能LLM的规模。
  • 其它亮点
    本论文提出的SOLAR 10.7B模型在多个NLP任务中表现出卓越的性能,SOLAR 10.7B-Instruct在指令跟随能力方面优于Mixtral-8x7B-Instruct。研究者在实验中使用了多个数据集,并将SOLAR 10.7B公开提供。
  • 相关研究
    最近的相关研究包括使用混合专家的LLM扩展方法,以及其他LLM的规模扩展方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论