OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

简介

开放式语言模型的可重现性和透明度对于推进开放研究、确保结果的可信度以及进行数据和模型偏差以及潜在风险的调查是至关重要的。为此，我们发布了OpenELM，这是一个最先进的开放式语言模型。OpenELM使用逐层缩放策略，在变压器模型的每一层中高效地分配参数，从而提高准确性。例如，对于大约十亿个参数的参数预算，OpenELM的准确性比OLMo提高了2.36％，同时需要2倍的少的预训练标记。与仅提供模型权重和推理代码，并在私有数据集上进行预训练的先前做法不同，我们的发布包括在公开可用数据集上训练和评估语言模型的完整框架，包括训练日志、多个检查点和预训练配置。我们还发布了将模型转换为MLX库以进行推理和在Apple设备上进行微调的代码。这个全面的发布旨在赋予和加强开放研究社区，为未来的开放研究努力铺平道路。我们的源代码以及预训练模型权重和训练配方可在\url{https://github.com/apple/corenet}上找到。此外，\model模型可以在HuggingFace上找到：\url{https://huggingface.co/apple/OpenELM}。
图表
解决问题

本论文旨在提高大型语言模型的可重复性和透明度，通过发布一个最先进的开放式语言模型OpenELM，来促进开放研究，确保结果的可信度，并探究数据和模型偏差以及潜在风险。
关键思路

OpenELM使用层内缩放策略，在Transformer模型的每个层中高效地分配参数，从而提高准确性。与以往只提供模型权重和推理代码，以及在私有数据集上进行预训练的做法不同，本论文的发布包括了语言模型的完整训练和评估框架，包括训练日志、多个检查点和预训练配置，这有助于加强开放研究社区，为未来的开放研究奠定基础。
其它亮点

本论文提供了完整的训练和评估框架，并公开了源代码和预训练模型权重，以及转换模型为MLX库以在Apple设备上进行推理和微调的代码。OpenELM在公开可用的数据集上进行了训练和评估，表现出比OLMo更高的准确性，而且所需的预训练令牌数量只有其一半。这一综合发布旨在促进和加强开放研究社区，为未来的开放研究工作铺平道路。
相关研究

最近，也有一些相关的研究工作，例如GPT-3、BERT等。

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

评论