SuperBPE: Space Travel for Language Models

2025年03月17日
  • 简介
    几乎所有语言模型(LM)的分词方案都基于一个假设,即分词单元应该是子词,也就是限定在单词边界之内。尽管这种假设看似提供了一个合理的归纳偏置,但这种常见做法是否限制了现代语言模型的潜力?空白符并不是意义的可靠分隔符,这一点可以从多词表达(例如“by the way”)、表达某个概念所需单词数量的跨语言差异(例如德语中“spacesuit helmet”是“raumanzughelm”),以及根本不使用空白符的语言(例如中文)中得到证明。为了探索超越子词分词的潜力,我们引入了一种“超词”分词器——SuperBPE,它将一个简单的预分词课程整合到字节对编码(BPE)算法中,首先学习子词,然后学习跨越空白符的超词。这极大地提高了编码效率:当词汇表大小固定为20万时,SuperBPE平均比BPE少用多达33%的分词单元来编码一段固定的文本。在实验中,我们在固定模型大小、词汇表大小和训练计算量的前提下,从零开始预训练80亿参数的Transformer语言模型,仅改变学习词汇表的算法。使用SuperBPE训练的模型在30个下游任务中平均比BPE基线高出4.0%的绝对性能(包括在MMLU上提高8.2%),同时推理时所需的计算量减少了27%。在分析中,我们发现SuperBPE生成的文本分割在每个分词单元的难度上更加均匀。从定性角度来看,这可能是因为SuperBPE的分词单元经常捕捉到在语义上作为一个整体功能的常见多词表达。SuperBPE是对分词方法的一个简单而局部的改进,它不仅提高了编码效率,还提升了下游任务的表现,从而生成了更优秀的语言模型。
  • 图表
  • 解决问题
    该论文试图解决传统语言模型中基于子词(subword)的分词方法是否限制了模型潜力的问题。具体来说,它探讨了以空格为边界划分子词是否合理,并提出了一种超越子词级别的分词方法。这是一个新颖的问题,因为它挑战了当前主流的语言模型分词假设。
  • 关键思路
    论文提出了一个名为SuperBPE的‘超词’分词器,通过在字节对编码(BPE)算法中引入预分词课程学习,先学习子词,然后进一步学习跨越空格的‘超词’。这种方法能够更高效地编码文本,并捕捉多词表达式的语义单元,从而提高模型性能和推理效率。
  • 其它亮点
    1. SuperBPE相比传统BPE减少了33%的token数量,显著提高了编码效率;2. 在相同的模型规模、词汇表大小和训练计算量下,使用SuperBPE预训练的8B模型在30个下游任务上平均提升了4.0%,其中MMLU任务提升了8.2%;3. 推理时所需的计算资源减少了27%;4. 论文分析表明,SuperBPE生成的token分布更加均匀,且常包含语义上的单个单元;5. 尽管未明确提及代码开源,但其方法是对BPE的简单改进,易于复现,值得进一步研究的方向包括如何优化跨语言场景下的超词学习。
  • 相关研究
    相关研究包括:1. 基于子词的分词方法如Byte-Level BPE (Sennrich et al., 2016) 和 SentencePiece (Kudo & Richardson, 2018),这些方法奠定了现代语言模型的基础;2. 多词表达式建模的研究,例如《Learning Multi-Word Expressions for Neural Machine Translation》(Wu et al., 2020);3. 针对无空格语言(如中文)的分词方法,例如《Chinese Word Segmentation with Transformer Language Models》(Zhang et al., 2021);4. 提高语言模型推理效率的工作,例如《Efficient Fine-Tuning of Pretrained Language Models》(Sanh et al., 2020)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论