- 简介本研究探究了现代语言模型生成的文本与其训练语料库之间的新颖程度。我们评估了语言模型生成的$n$元组在训练数据中的出现概率以及$n$元新颖度,即在任意大的$n$下,语言模型生成的$n$元组中有多少是训练数据中未出现的。为了在常数时间内实现对语料库的任意长度$n$元组搜索,我们开发了Rusty-DAWG,这是一种受基因组数据索引启发的新型搜索工具。我们将LM生成的文本的新颖度与人类编写的文本进行了比较,并探讨了影响生成新颖度的因素,重点关注了Pythia模型。我们发现,对于$n>4$,LM生成的文本不如人类编写的文本新颖,但对于较小的$n$,LM生成的文本更为新颖。更大的语言模型和更受限制的解码策略都会降低新颖度。最后,我们展示了如果训练数据中$n$元组出现的次数较少,LM可以更低的损失完成$n$元组。总的来说,我们的结果揭示了影响LM生成文本新颖度的因素,并发布了Rusty-DAWG以促进进一步的预训练数据研究。
- 图表
- 解决问题研究现代语言模型(LMs)生成的文本相对于其训练语料库的新颖程度,评估LMs分配给完整训练n-gram的概率以及n-新颖度,即LM生成的n-gram中在训练数据中没有出现的比例(对于任意大的n)。
- 关键思路通过开发一种新的搜索工具Rusty-DAWG,使得可以在常数时间内对语料库进行任意长度的n-gram搜索,比较了LM生成文本的新颖度与人类编写文本的新颖度,并探讨影响生成新颖度的因素,重点关注Pythia模型。研究发现,对于n>4,LM生成的文本比人类编写的文本更缺乏新颖性,但对于较小的n,LM生成的文本更具新颖性。较大的LMs和更受约束的解码策略都会降低新颖度。最后,研究表明,如果在训练数据中出现频率较低,LMs完成n-gram的损失会更低。
- 其它亮点实验设计了Rusty-DAWG搜索工具,并使用Pythia模型进行了实验。研究发现,对于n>4,LM生成的文本比人类编写的文本更缺乏新颖性,但对于较小的n,LM生成的文本更具新颖性。较大的LMs和更受约束的解码策略都会降低新颖度。LMs完成n-gram的损失会更低,如果在训练数据中出现频率较低。研究还开源了Rusty-DAWG搜索工具以促进进一步的预训练数据研究。
- 最近的相关研究包括《GPT-3:使用自监督语言建模的大型自然语言处理模型》、《BERT:双向变换器的预训练深度转移学习》等。
沙发等你来抢
去评论
评论
沙发等你来抢