GPT“高仿”问世：GPT-Neo，最大可达GPT-3大小，已开源

近日，有个名叫 EleutherAI的团队（创始成员为：Connor Leahy，Leo Gao和Sid Black），宣布推出GPT-Neo开源项目，可用于复现GPT系列的各种语言模型，也包括GPT-3。

作者表示，目前他们已经成功制造出GPT-2大小的模型。从项目代码的可扩展性来看，他们预计可以复刻出GPT-3大小的语言模型，甚至比GPT-3更大。不仅如此，由于这是个开源的项目，大家还可以自主训练这些模型（将来也会包括GPT-3）。目前，作者已经给出了详细的训练步骤。

本质上，GPT-Neo有点像是GPT系列的“高仿”项目：GPT-Neo中的各种模型，设计原理接近GPT系列，但代码并不一样。作者们打算尝试各种结构和注意力类型，最终扩展出GPT-3大小的大语言模型。为了实现这一目标，他们从复现GPT系列的模型开始，不断尝试各种模型架构、和各种注意力机制的实现方式。

这里面，融合了各种让模型变得“更大”的研究：例如，多任务学习方法MoE（Mixture of Experts），采用多个专家的结构，将问题空间划分为同质区域，然后采用分发器，决定问题应该问哪些专家。又比如，具有线性复杂性的自注意力机制等。

内容中包含的图片若涉及版权问题，请及时与我们联系删除