- 简介本文研究了现代语言模型(LMs)生成文本与其训练语料之间的新颖程度。作者评估了两个方面:(i)LMs分配给完整训练$n$-gram的概率和(ii)$n$-新颖性,即LM生成的$n$-gram中未出现在训练数据中的比例(对于任意大的$n$)。为了在常数时间内实现对语料库的任意长度$n$-gram搜索,作者开发了Rusty-DAWG,这是一种受到基因组数据索引启发的新型搜索工具。作者将LM生成文本的新颖性与人类撰写的文本进行了比较,并探讨了影响生成新颖性的因素,重点关注Pythia模型。作者发现,对于$n>4$,LM生成的文本比人类撰写的文本更不新颖,但对于较小的$n$,LM生成的文本更新颖。较大的LM和更受限制的解码策略都会降低新颖性。最后,作者表明,如果$n$-gram在训练数据中更频繁出现,LM就会以更低的损失完成$n$-gram。总体而言,本文揭示了影响LM生成文本新颖性的因素,并发布了Rusty-DAWG以促进进一步的预训练数据研究。
- 图表
- 解决问题论文研究了现代语言模型生成的文本与其训练语料库之间的新颖性程度,并探讨了影响生成新颖性的因素。
- 关键思路论文使用Rusty-DAWG工具实现了常数时间内对语料库进行任意长度的n-gram搜索,并发现Pythia模型的较大规模和更受限制的解码策略都会降低生成的文本的新颖性。
- 其它亮点论文发现,对于n>4,语言模型生成的文本比人类编写的文本更缺乏新颖性,但对于较小的n,模型生成的文本则更新颖。此外,论文还表明,如果n-gram在训练数据中更频繁出现,则模型更容易生成具有更低损失的n-gram。
- 近期的相关研究包括《On the Evaluation of Conditional Language Models》和《Language Models are Few-Shot Learners》等。
沙发等你来抢
去评论
评论
沙发等你来抢