LLM360: Towards Fully Transparent Open-Source LLMs

简介

最近开源的大型语言模型（LLMs）如LLaMA、Falcon和Mistral的激增，为AI从业者和研究人员提供了多样化的选择。然而，大多数LLMs仅发布了部分工件，例如最终模型权重或推理代码，而技术报告越来越限制其范围，只涉及高级设计选择和表面统计数据。这些选择通过降低对LLMs训练的透明度，迫使团队重新发现许多训练过程中的细节，从而阻碍了该领域的进展。我们提出了LLM360，这是一个全面开源LLMs的倡议，主张将所有训练代码和数据、模型检查点和中间结果提供给社区。LLM360的目标是通过使端到端LLM训练过程对每个人透明和可重现，支持开放和协作的AI研究。作为LLM360的第一步，我们发布了两个从头开始预训练的7B参数LLMs，Amber和CrystalCoder，包括它们的训练代码、数据、中间检查点和分析（位于https://www.llm360.ai）。我们致力于通过这个开源的努力不断推动LLMs的边界。更大规模和更强大的模型正在进行中，并将在未来发布。
图表
解决问题

LLM360试图解决LLM训练过程缺乏透明度和可重复性的问题，提出完全开源LLM的方案。
关键思路

LLM360倡导所有训练代码和数据、模型检查点和中间结果都应该向社区开放，以支持开放和协作的AI研究，使LLM的训练过程透明和可重复。
其它亮点

LLM360发布了两个7B参数LLM，Amber和CrystalCoder，包括它们的训练代码、数据、中间检查点和分析。实验结果表明，这些LLM在多个基准测试上表现出色，具有广泛的应用前景。LLM360承诺通过这一开源努力不断推进LLM的发展。
相关研究

最近的相关研究主要集中在LLM的设计和表现上，如GPT-3、Turing-NLG等。

LLM360: Towards Fully Transparent Open-Source LLMs

评论