YuLan: An Open-source Large Language Model

2024年06月28日
  • 简介
    大型语言模型(LLMs)已经成为许多应用程序的基础,利用它们在处理和理解自然语言方面的广泛能力。虽然许多开源的LLMs已经发布了技术报告,但缺乏训练细节阻碍了进一步的研究和开发。本文介绍了YuLan的开发,这是一系列具有120亿参数的开源LLMs。YuLan的基础模型是在包括大量英文、中文和多语言文本的多样化语料库中预先训练的,其训练数据量达到了约1.7T个标记。我们设计了一个三阶段的预训练方法来增强YuLan的整体能力。随后的训练阶段采用了大量高质量的合成数据,包括指导调整和人工对齐。为了促进复杂和长尾知识的学习,我们设计了一个跨阶段的课程学习框架,帮助LLMs以易到难的方式学习知识。YuLan的训练于2024年1月完成,并在各种英文和中文基准测试中达到了与最先进的LLMs相当的性能。本文概述了从零开始开发LLMs的全面技术路线图。我们的模型和代码可在https://github.com/RUC-GSAI/YuLan-Chat上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在开发一个大规模语言模型,解决自然语言处理领域的问题,并提供训练细节以促进进一步的研究和开发。
  • 关键思路
    论文提出了一种三阶段的预训练方法,使用大量高质量的合成数据进行指令调整和人类对齐,以提高模型的整体能力。同时,使用课程学习框架帮助模型以简单到困难的方式学习复杂和长尾知识。
  • 其它亮点
    论文开发了一个名为YuLan的开源大规模语言模型,参数数量为120亿,基于包括英语、中文和多语言文本在内的多样化语料库进行预训练。模型在英语和中文基准测试中表现出与最先进的大规模语言模型相当的性能。研究人员还提供了代码和模型。
  • 相关研究
    最近的相关研究包括GPT-3、T5、ELECTRA等大规模语言模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问