- 简介最近开源的大型语言模型(LLMs)如LLaMA、Falcon和Mistral的激增,为AI从业者和研究人员提供了多样化的选择。然而,大多数LLMs仅发布了部分工件,例如最终模型权重或推理代码,而技术报告越来越限制其范围,只涉及高级设计选择和表面统计数据。这些选择通过降低对LLMs训练的透明度,迫使团队重新发现许多训练过程中的细节,从而阻碍了该领域的进展。我们提出了LLM360,这是一个全面开源LLMs的倡议,主张将所有训练代码和数据、模型检查点和中间结果提供给社区。LLM360的目标是通过使端到端LLM训练过程对每个人透明和可重现,支持开放和协作的AI研究。作为LLM360的第一步,我们发布了两个从头开始预训练的7B参数LLMs,Amber和CrystalCoder,包括它们的训练代码、数据、中间检查点和分析(位于https://www.llm360.ai)。我们致力于通过这个开源的努力不断推动LLMs的边界。更大规模和更强大的模型正在进行中,并将在未来发布。
- 图表
- 解决问题LLM360试图解决LLM训练过程缺乏透明度和可重复性的问题,提出完全开源LLM的方案。
- 关键思路LLM360倡导所有训练代码和数据、模型检查点和中间结果都应该向社区开放,以支持开放和协作的AI研究,使LLM的训练过程透明和可重复。
- 其它亮点LLM360发布了两个7B参数LLM,Amber和CrystalCoder,包括它们的训练代码、数据、中间检查点和分析。实验结果表明,这些LLM在多个基准测试上表现出色,具有广泛的应用前景。LLM360承诺通过这一开源努力不断推进LLM的发展。
- 最近的相关研究主要集中在LLM的设计和表现上,如GPT-3、Turing-NLG等。
沙发等你来抢
去评论
评论
沙发等你来抢