Tokenization Is More Than Compression

简介

分词是自然语言处理（NLP）任务中的基础步骤，它连接了原始文本和语言模型。现有的分词方法如字节对编码（BPE）源自于数据压缩领域，人们认为BPE的有效性来自于它将文本压缩成相对较少的标记的能力。我们通过引入PathPiece来测试少量标记是否能够带来更好的下游性能的假设，PathPiece是一种新的分词器，它将文档的文本分割为给定词汇表的最少标记数。通过大量实验，我们发现这个假设并不成立，这对于理解有效分词的原因产生了怀疑。为了研究哪些因素起到了作用，我们评估了分词的三个阶段的设计决策：预分词、词汇表构建和分割，并提供了关于有效分词器设计的新见解。具体来说，我们阐明了预分词的重要性和使用BPE初始化词汇表构建的好处。我们训练了64个语言模型，其分词大小从350M到2.4B参数不等，所有模型均可公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图验证使用更少的token是否会提高自然语言处理任务的性能，同时评估tokenization的设计决策对性能的影响。
关键思路

通过引入一种新的tokenizer PathPiece，将文本分割为给定词汇表的最少数量的token，并进行广泛的实验，发现使用更少的token并不会提高下游性能，同时强调了预分词和使用BPE初始化词汇表构建的重要性。
其它亮点

论文训练了64个语言模型，使用了不同的tokenization方法，并公开了这些模型。实验结果表明，使用更少的token并不一定会提高性能，同时预分词和使用BPE初始化词汇表构建对性能有积极影响。
相关研究

最近的相关研究包括使用subword units进行tokenization的论文，如《Neural Machine Translation of Rare Words with Subword Units》和《Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates》。

Tokenization Is More Than Compression

提问交流

提问交流