BERT(Devlin等人, 2019)开始,在下游任务中微调预训练语言模型 (LM)已成为 NLP 领域的通用做法。然而,拥有 175B 参数的 GPT-3 模型(Brown等人, 2020)带来了一种将 LM 用于下游任务的新方法:通过使用自然语言提示信息(prompt)和任务示例(demonstration)作为context,GPT-3只需几个样本即可处理很多任务,而不需更新底层模型中的参数(正如文章标题“Language Models are Few-Shot Learners”所示)。GPT-3 庞大的模型规模是其成功的重要因素,而prompt和demonstration的概念也让我们对如何更好地使用语言模型有了新的认识。

那么什么是prompt?prompt是插入到输入样本中的一段文本,因此可以将原始任务转换为(masked)language modeling问题。例如,假设我们要对影评“No reason to watch”进行情感分类,我们可以在句子中附加一个prompt“It was”,得到“No reason to watch. It was”。这样就可以很自然地认为,LM 会有更高的概率判断为“terrible”而不是“great”。

GPT-3 发布后,涌现了很多与prompt相关的论文,其中很多都讨论了中等规模预训练模型的prompt-based learning,例如BERT(BERT-base 有 110M 参数,比最大的 GPT-3 小 1000 倍)。在这篇博文中,我将概述最近的prompt-based方法以及我对prompting的看法。在文章最后,将介绍我们的 ACL'21 论文,“Making Pre-trained Language Models Better Few-shot Learners”。

论文链接:https://arxiv.org/pdf/2012.15723.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除