200亿参数GPT-NeoX即将开源：96块A100训练三个月，野生GPT家族再添一员

经历了长达数月的芯片短缺导致的出货延迟、技术试验以及反复调试之后，EleutherAI 在今天官宣了最新的 200 亿参数开源语言模型「GPT-NeoX-20B」。

自从 2020 年 5 月 OpenAI 高调推出 1750 亿参数「GPT-3」，人工智能领域就掀起了一阵大模型的巨浪。由于微软拥有对 GPT-3 源代码的独家访问权，不同于 GPT-2 和 GPT-1，OpenAI 并没有开源 GPT-3，而是通过商业 API 来提供该模型的能力及训练数据集。这些服务很快开始收费，且价格不菲：

基础模型价格标准。

按照这样的收费标准，很多普通用户是玩不起的。所以，目前 OpenAI API 更适用于大规模企业用户。

这种「矛盾」恰恰推动了 EleutherAI 的诞生，促使其开发「野生版」 GPT-3。

EleutherAI 成立于 2020 年 7 月，是一个由机器学习研究人员组成的小组，宗旨是努力构建和开源大型语言模型。此前，他们开发了 GPT-Neo，这是 GPT-3 的复现与开源中最优秀的项目之一。去年 3 月，EleutherAI 在 GPT-Neo 项目主页放出了复现版 GPT-3 的模型参数（1.3B 和 2.7B 级别），并将其更新在了 Colab notebook 上。不过，GPT-Neo 开源模型里较大的版本也只达到了 GPT-3 商用版里最小模型的参数量。去年 6 月，EleutherAI 又开源了 60 亿参数的自然语言处理 AI 模型 GPT-J。

现在，更大规模、更优表现的 GPT-NeoX-20B 已经面世。研究者称，GPT-NeoX-20B 是目前最大的可公开访问的预训练通用自回归语言模型，并在多项任务上取得了优于 OpenAI Curie 的不俗表现。

对于 EleutherAI 来说，GPT-NeoX-20B 只能算是一项阶段性成果，他们的最终目标是将参数规模扩展到 1700 亿左右，就像 GPT-3 一样。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

200亿参数GPT-NeoX即将开源：96块A100训练三个月，野生GPT家族再添一员

评论列表

评论