- 简介分词是自然语言处理(NLP)任务中的基础步骤,它连接了原始文本和语言模型。现有的分词方法如字节对编码(BPE)源自于数据压缩领域,人们认为BPE的有效性来自于它将文本压缩成相对较少的标记的能力。我们通过引入PathPiece来测试少量标记是否能够带来更好的下游性能的假设,PathPiece是一种新的分词器,它将文档的文本分割为给定词汇表的最少标记数。通过大量实验,我们发现这个假设并不成立,这对于理解有效分词的原因产生了怀疑。为了研究哪些因素起到了作用,我们评估了分词的三个阶段的设计决策:预分词、词汇表构建和分割,并提供了关于有效分词器设计的新见解。具体来说,我们阐明了预分词的重要性和使用BPE初始化词汇表构建的好处。我们训练了64个语言模型,其分词大小从350M到2.4B参数不等,所有模型均可公开获取。
- 图表
- 解决问题论文试图验证使用更少的token是否会提高自然语言处理任务的性能,同时评估tokenization的设计决策对性能的影响。
- 关键思路通过引入一种新的tokenizer PathPiece,将文本分割为给定词汇表的最少数量的token,并进行广泛的实验,发现使用更少的token并不会提高下游性能,同时强调了预分词和使用BPE初始化词汇表构建的重要性。
- 其它亮点论文训练了64个语言模型,使用了不同的tokenization方法,并公开了这些模型。实验结果表明,使用更少的token并不一定会提高性能,同时预分词和使用BPE初始化词汇表构建对性能有积极影响。
- 最近的相关研究包括使用subword units进行tokenization的论文,如《Neural Machine Translation of Rare Words with Subword Units》和《Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates》。
沙发等你来抢
去评论
评论
沙发等你来抢