在NLP领域,谈到超大模型必然想到预训练语言模型GPT-3,自今年3月份对外开放以来,其因超大模型和超强性能频频刷屏。GPT-3拥有1750亿参数量,约有700G大小,一次训练成本高达上百万美元。

然而,近日慕尼黑路德维希·马克西米利安大学(LMU)AI研究团队公布了一项最新研究成果显示,他们在文本生成方面可以仅用2.23亿参数量,就能到达GPT-3的效果。

论文中提到,他们证明了使用参数小几个数量级的语言模型也可以获得类似GPT-3的性能。这是通过将输入文本转换成包含任务描述的完形填空,并结合梯度优化来实现的。此外,利用未标记的数据也可以对模型进一步改进;

目前,这项研究论文已发表至预印论文库arXiv。