经历了长达数月的芯片短缺导致的出货延迟、技术试验以及反复调试之后,EleutherAI 在今天官宣了最新的 200 亿参数开源语言模型「GPT-NeoX-20B」。
自从 2020 年 5 月 OpenAI 高调推出 1750 亿参数「GPT-3」,人工智能领域就掀起了一阵大模型的巨浪。由于微软拥有对 GPT-3 源代码的独家访问权,不同于 GPT-2 和 GPT-1,OpenAI 并没有开源 GPT-3,而是通过商业 API 来提供该模型的能力及训练数据集。这些服务很快开始收费,且价格不菲:

基础模型价格标准。

按照这样的收费标准,很多普通用户是玩不起的。所以,目前 OpenAI API 更适用于大规模企业用户。
这种「矛盾」恰恰推动了 EleutherAI 的诞生,促使其开发「野生版」 GPT-3。
EleutherAI 成立于 2020 年 7 月,是一个由机器学习研究人员组成的小组,宗旨是努力构建和开源大型语言模型。此前,他们开发了 GPT-Neo,这是 GPT-3 的复现与开源中最优秀的项目之一。去年 3 月,EleutherAI 在 GPT-Neo 项目主页放出了复现版 GPT-3 的模型参数(1.3B 和 2.7B 级别),并将其更新在了 Colab notebook 上。不过,GPT-Neo 开源模型里较大的版本也只达到了 GPT-3 商用版里最小模型的参数量。去年 6 月,EleutherAI 又开源了 60 亿参数的自然语言处理 AI 模型 GPT-J。
现在,更大规模、更优表现的 GPT-NeoX-20B 已经面世。研究者称,GPT-NeoX-20B 是目前最大的可公开访问的预训练通用自回归语言模型,并在多项任务上取得了优于 OpenAI Curie 的不俗表现。
对于 EleutherAI 来说,GPT-NeoX-20B 只能算是一项阶段性成果,他们的最终目标是将参数规模扩展到 1700 亿左右,就像 GPT-3 一样。

内容中包含的图片若涉及版权问题,请及时与我们联系删除