大规模语言模型(LM)已经被证明可以很好的应用到小样本学习任务。例如 OpenAI 提出的 GPT-3 ,参数量达 1,750 亿,不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力等。在不进行微调的情况下,可以在多个 NLP 基准上达到最先进的性能。然而,像 GPT-3 这样的大规模语言模型在零样本(zero-shot)学习任务中表现不是很突出。例如,GPT-3 在执行阅读理解、问答和自然语言推理等任务时,零样本的性能要比小样本(few-shot)性能差很多。
本文中,Quoc Le 等来自谷歌的研究者探索了一种简单的方法来提高大型语言模型在零样本情况下的性能,从而扩大受众范围。他们认为 NLP 任务可以通过自然语言指令来描述,例如「这部影评的情绪是正面的还是负面的?」或者「把『how are you』译成汉语」。
该研究采用具有 137B 参数的预训练模型并执行指令调整(instruction tuning)任务,对 60 多个通过自然语言指令表达的 NLP 任务进行调整。他们将这个结果模型称为 Finetuned LANguage Net,或 FLAN。
为了评估 FLAN 在未知任务上的零样本性能,该研究根据 NLP 任务的任务类型将其分为多个集群,并对每个集群进行评估,同时在其他集群上对 FLAN 进行指令调整。结果显示,采用指令调整技术后的模型在自然语言推理、阅读理解和开放域问答等未见过的任务上的零样本性能超越了 GPT-3 的小样本性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢