SuperBPE: Space Travel for Language Models

简介

几乎所有语言模型（LM）的分词方案都基于一个假设，即分词单元应该是子词，也就是限定在单词边界之内。尽管这种假设看似提供了一个合理的归纳偏置，但这种常见做法是否限制了现代语言模型的潜力？空白符并不是意义的可靠分隔符，这一点可以从多词表达（例如“by the way”）、表达某个概念所需单词数量的跨语言差异（例如德语中“spacesuit helmet”是“raumanzughelm”），以及根本不使用空白符的语言（例如中文）中得到证明。为了探索超越子词分词的潜力，我们引入了一种“超词”分词器——SuperBPE，它将一个简单的预分词课程整合到字节对编码（BPE）算法中，首先学习子词，然后学习跨越空白符的超词。这极大地提高了编码效率：当词汇表大小固定为20万时，SuperBPE平均比BPE少用多达33%的分词单元来编码一段固定的文本。在实验中，我们在固定模型大小、词汇表大小和训练计算量的前提下，从零开始预训练80亿参数的Transformer语言模型，仅改变学习词汇表的算法。使用SuperBPE训练的模型在30个下游任务中平均比BPE基线高出4.0%的绝对性能（包括在MMLU上提高8.2%），同时推理时所需的计算量减少了27%。在分析中，我们发现SuperBPE生成的文本分割在每个分词单元的难度上更加均匀。从定性角度来看，这可能是因为SuperBPE的分词单元经常捕捉到在语义上作为一个整体功能的常见多词表达。SuperBPE是对分词方法的一个简单而局部的改进，它不仅提高了编码效率，还提升了下游任务的表现，从而生成了更优秀的语言模型。
图表
解决问题

该论文试图解决传统语言模型中基于子词（subword）的分词方法是否限制了模型潜力的问题。具体来说，它探讨了以空格为边界划分子词是否合理，并提出了一种超越子词级别的分词方法。这是一个新颖的问题，因为它挑战了当前主流的语言模型分词假设。
关键思路

论文提出了一个名为SuperBPE的‘超词’分词器，通过在字节对编码（BPE）算法中引入预分词课程学习，先学习子词，然后进一步学习跨越空格的‘超词’。这种方法能够更高效地编码文本，并捕捉多词表达式的语义单元，从而提高模型性能和推理效率。
其它亮点

1. SuperBPE相比传统BPE减少了33%的token数量，显著提高了编码效率；2. 在相同的模型规模、词汇表大小和训练计算量下，使用SuperBPE预训练的8B模型在30个下游任务上平均提升了4.0%，其中MMLU任务提升了8.2%；3. 推理时所需的计算资源减少了27%；4. 论文分析表明，SuperBPE生成的token分布更加均匀，且常包含语义上的单个单元；5. 尽管未明确提及代码开源，但其方法是对BPE的简单改进，易于复现，值得进一步研究的方向包括如何优化跨语言场景下的超词学习。
相关研究

相关研究包括：1. 基于子词的分词方法如Byte-Level BPE (Sennrich et al., 2016) 和 SentencePiece (Kudo & Richardson, 2018)，这些方法奠定了现代语言模型的基础；2. 多词表达式建模的研究，例如《Learning Multi-Word Expressions for Neural Machine Translation》(Wu et al., 2020)；3. 针对无空格语言（如中文）的分词方法，例如《Chinese Word Segmentation with Transformer Language Models》(Zhang et al., 2021)；4. 提高语言模型推理效率的工作，例如《Efficient Fine-Tuning of Pretrained Language Models》(Sanh et al., 2020)。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论