作者:Seongjin Shin , Sang-Woo Lee , Hwijeen Ahn ,等

简介:本文研究语料库对预训练模型的上下文学习的影响。最近许多关于大规模语言模型的研究都报告了成功的上下文零样本和少样本学习能力。但是,仍然缺乏对何时发生上下文学习的深入分析。例如,不知道上下文学习性能如何随着训练语料库的变化而变化。在这里,作者研究了预训练语料库的来源和大小对 HyperCLOVA(一种以韩国为中心的 GPT-3 模型)中的上下文学习的影响。根据作者的深入调查,作者引入以下观察结果:(1)上下文学习的表现在很大程度上取决于语料库领域的来源,而训练前语料库的大小并不一定决定语境内学习的出现;(2)当一个语言模型在多个语料库的组合上进行训练时,即使每个语料库不单独导致语境内学习,上下文学习能力也会出现,(3)使用与下游任务相关的语料库进行预训练并不总能保证下游任务在上下文学习中的竞争性表现,尤其是在小样本环境下;(4)语言建模(以困惑度衡量)与上下文学习之间的关系并不总是相关的(例如:低困惑并不总是意味着高情境下的学习效果)


论文下载:https://arxiv.org/pdf/2204.13509

内容中包含的图片若涉及版权问题,请及时与我们联系删除