Toward a Theory of Tokenization in LLMs

简介

虽然已经有大量的研究尝试规避语言建模中的分词（Clark等人，2022；Xue等人，2022），但目前的共识是，它是设计最先进的性能语言模型的必要初始步骤。本文从理论角度研究分词，通过研究变压器在简单数据生成过程中的行为来进行。当训练$k>1$的某些简单$k$阶马尔可夫过程的数据时，变压器表现出一个令人惊讶的现象——在没有分词的情况下，它们在经验上无法学习正确的分布，并根据一元模型（Makkuva等人，2024）预测字符。然而，通过添加分词，我们经验性地观察到变压器突破了这个障碍，并能够近乎最优地对来自源的序列的概率进行建模，实现小的交叉熵损失。以此观察为起点，我们研究了变压器在有和没有分词的情况下实现的端到端交叉熵损失。通过适当的分词，我们表明，即使是变压器学习的最简单的一元模型（关于标记）也能够近乎最优地对来自$k$阶马尔可夫源的序列的概率进行建模。我们的分析通过研究变压器在马尔可夫数据上的行为，为实践中使用分词提供了合理的理由。
图表
解决问题

研究tokenization在语言模型中的作用，解决当transformers在处理k阶Markov过程时，没有进行tokenization会导致无法正确学习分布的问题。
关键思路

通过研究transformers在简单数据生成过程中的行为，论文提出tokenization是设计最先进的语言模型的必要初始步骤，证明了tokenization的有效性。
其它亮点

实验表明，在适当的tokenization下，即使transformers学习的是最简单的unigram模型，也能近乎最优地模拟从k阶Markov源生成的序列的概率。这篇论文提供了使用tokenization的理论依据。
相关研究

最近的相关研究包括Clark等人和Xue等人试图规避tokenization来进行语言建模的研究。

Toward a Theory of Tokenization in LLMs

评论