近日,有个名叫 EleutherAI的团队(创始成员为:Connor Leahy,Leo Gao和Sid Black),宣布推出GPT-Neo开源项目,可用于复现GPT系列的各种语言模型,也包括GPT-3。

作者表示,目前他们已经成功制造出GPT-2大小的模型。从项目代码的可扩展性来看,他们预计可以复刻出GPT-3大小的语言模型,甚至比GPT-3更大。不仅如此,由于这是个开源的项目,大家还可以自主训练这些模型(将来也会包括GPT-3)。目前,作者已经给出了详细的训练步骤。

本质上,GPT-Neo有点像是GPT系列的“高仿”项目:GPT-Neo中的各种模型,设计原理接近GPT系列,但代码并不一样。作者们打算尝试各种结构和注意力类型,最终扩展出GPT-3大小的大语言模型。为了实现这一目标,他们从复现GPT系列的模型开始,不断尝试各种模型架构、和各种注意力机制的实现方式。

这里面,融合了各种让模型变得“更大”的研究:例如,多任务学习方法MoE(Mixture of Experts),采用多个专家的结构,将问题空间划分为同质区域,然后采用分发器,决定问题应该问哪些专家。又比如,具有线性复杂性的自注意力机制等。

项目地址:https://github.com/EleutherAI/gpt-neo

内容中包含的图片若涉及版权问题,请及时与我们联系删除