LMU AI研究团队推出小规模文本生成模型，性能堪比GPT-3

在NLP领域，谈到超大模型必然想到预训练语言模型GPT-3，自今年3月份对外开放以来，其因超大模型和超强性能频频刷屏。GPT-3拥有1750亿参数量，约有700G大小，一次训练成本高达上百万美元。

然而，近日慕尼黑路德维希·马克西米利安大学（LMU）AI研究团队公布了一项最新研究成果显示，他们在文本生成方面可以仅用2.23亿参数量，就能到达GPT-3的效果。

论文中提到，他们证明了使用参数小几个数量级的语言模型也可以获得类似GPT-3的性能。这是通过将输入文本转换成包含任务描述的完形填空，并结合梯度优化来实现的。此外，利用未标记的数据也可以对模型进一步改进；

目前，这项研究论文已发表至预印论文库arXiv。