LLM360: Towards Fully Transparent Open-Source LLMs

Zhengzhong Liu ,
Aurick Qiao ,
Willie Neiswanger ,
Hongyi Wang ,
Bowen Tan ,
Tianhua Tao ,
Junbo Li ,
Yuqi Wang ,
Suqi Sun ,
Omkar Pangarkar ,
Richard Fan ,
Yi Gu ,
Victor Miller ,
Yonghao Zhuang ,
Guowei He ,
Haonan Li ,
Fajri Koto ,
Liping Tang ,
Nikhil Ranjan ,
Zhiqiang Shen ,
Xuguang Ren ,
Roberto Iriondo ,
Cun Mu ,
Zhiting Hu ,
Mark Schulze ,
Preslav Nakov ,
Tim Baldwin ,
Eric P. Xing
2023年12月11日
  • 简介
    最近开源的大型语言模型(LLMs)如LLaMA、Falcon和Mistral的激增,为AI从业者和研究人员提供了多样化的选择。然而,大多数LLMs仅发布了部分工件,例如最终模型权重或推理代码,而技术报告越来越限制其范围,只涉及高级设计选择和表面统计数据。这些选择通过降低对LLMs训练的透明度,迫使团队重新发现许多训练过程中的细节,从而阻碍了该领域的进展。我们提出了LLM360,这是一个全面开源LLMs的倡议,主张将所有训练代码和数据、模型检查点和中间结果提供给社区。LLM360的目标是通过使端到端LLM训练过程对每个人透明和可重现,支持开放和协作的AI研究。作为LLM360的第一步,我们发布了两个从头开始预训练的7B参数LLMs,Amber和CrystalCoder,包括它们的训练代码、数据、中间检查点和分析(位于https://www.llm360.ai)。我们致力于通过这个开源的努力不断推动LLMs的边界。更大规模和更强大的模型正在进行中,并将在未来发布。
  • 图表
  • 解决问题
    LLM360试图解决LLM训练过程缺乏透明度和可重复性的问题,提出完全开源LLM的方案。
  • 关键思路
    LLM360倡导所有训练代码和数据、模型检查点和中间结果都应该向社区开放,以支持开放和协作的AI研究,使LLM的训练过程透明和可重复。
  • 其它亮点
    LLM360发布了两个7B参数LLM,Amber和CrystalCoder,包括它们的训练代码、数据、中间检查点和分析。实验结果表明,这些LLM在多个基准测试上表现出色,具有广泛的应用前景。LLM360承诺通过这一开源努力不断推进LLM的发展。
  • 相关研究
    最近的相关研究主要集中在LLM的设计和表现上,如GPT-3、Turing-NLG等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论