- 简介本文认为,尽管BPE是最常用的分词算法,但分词过程中压缩的重要性仍不清楚。我们认为压缩在理论上很重要,可以视为0-gram语言建模,其中所有标记被赋予相等的概率。我们还展示了压缩对预训练语言模型的下游成功的实证重要性。我们通过改变训练过程中可用文档的数量来控制几个BPE分词器的压缩能力:从100万个文档到基于字符的分词器,相当于没有训练数据。然后,我们基于这些分词器预训练英语语言模型,并在几个任务上进行微调。我们发现分词器的压缩能力与模型的下游性能之间存在相关性,表明压缩是分词质量的可靠内在指标。这种相关性在生成任务(而非分类任务)或较小的模型(而非大型模型)中更为显著。我们还在土耳其语上复制了我们实验的一部分,并得出了类似的结果,证实了我们的结果适用于与英语不同的语言类型。我们得出结论,构建更好的压缩分词器是进一步研究和提高整体模型性能的有益途径。
- 图表
- 解决问题本论文旨在探讨令牌化过程中压缩的重要性,以及压缩能否作为衡量令牌化质量的可靠指标。作者通过控制训练数据量来比较不同的BPE分词器的压缩能力,以及它们对预训练语言模型下游任务的影响。
- 关键思路本论文认为压缩可以被视为0-gram语言模型,为所有令牌分配相等的概率。作者通过实验证明了压缩对于预训练语言模型下游任务的成功具有重要影响,建议构建更好的压缩分词器是未来研究的一个有价值的方向。
- 其它亮点论文通过控制训练数据量来比较不同的BPE分词器的压缩能力,以及它们对预训练语言模型下游任务的影响。作者发现压缩能力与模型下游任务的表现存在相关性,特别是在生成任务和小模型上。作者还在土耳其语上进行了实验,并得到类似的结果。
- 与本论文相关的研究包括BPE分词器的改进,以及预训练语言模型的各种应用,如GPT系列、BERT等。
沙发等你来抢
去评论
评论
沙发等你来抢