论文摘要的翻译(基于Google Translate人肉润色):

通过对大量文本进行预训练,然后对特定任务进行微调,最近的工作证明了在许多NLP任务和基准方面已经取得了巨大进展。尽管在结构上通常与任务无关,但是此方法仍然需要特定于任务的微调数据集,该数据集包含成千上万个示例。相比之下,人类通常只需要通过几个示例或简单的指令就能够执行新的语言任务,当前的NLP系统在很大程度上仍难以做到这一点。

本论文说明了,扩展语言模型可以极大地提高任务无关、小样本学习的性能,有时甚至可以与最先进的微调方法一试高下。具体来说,我们训练GPT-3(一种具有1750亿个参数的自回归语言模型,比以前的任何非稀疏语言模型多10倍),并在小样本设置下测试其性能。对于所有任务,应用GPT-3无需进行任何梯度更新或微调,而仅通过与模型的文本交互指定任务和少量演示即可。 GPT-3在许多NLP数据集上均具有出色的性能,包括翻译、问题解答和完形填空任务,以及一些需要即时推理或领域适应的任务,例如解释一些词,在句子中使用新词,或执行3位数的算术运算。同时,我们也发现,对一些数据集GPT-3的小样本学习仍然困难重重,对一些数据集,GPT-3仍然存在与大型Web语料库训练相关的方法论问题。

最后,我们发现GPT-3可以生成新闻文章的样本,人类评估人员很难将其与人类撰写的文章区分开。我们将讨论这一发现以及GPT-3的广泛社会影响。

论文的四位主要作者是:Tom B. Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah(贡献相同)。

值得注意的是,霍普金斯大学的物理学家Jared Kaplan也出现在论文作者名单上。

另外请欣赏GPT-3写的诗:

avatar

内容中包含的图片若涉及版权问题,请及时与我们联系删除