From Tokens to Words: On the Inner Lexicon of LLMs

简介

自然语言由单词组成，但现代的LLM处理的是子词作为输入。这种差异引发的一个自然问题是LLM是否在内部编码单词，如果是，那么是怎样的过程。我们提供了证据表明LLM会进行内在的去分词过程，将子词序列组合成连贯的单词表示。我们的实验表明，这个过程主要发生在模型的早期和中间层。它们还表明，这个过程对于非形态切分、打字错误和重要的词汇外单词是稳健的：当将这些单词的内部表示作为输入向量馈送给模型时，它可以“理解”它们，尽管在训练期间从未见过它们。我们的发现表明，LLM在分词器范围之外维护一个潜在的词汇表。这些见解提供了一个实用的、无需微调的应用程序，用于扩展预训练模型的词汇量。通过增加新的词汇，我们减少了输入长度和推理迭代次数，从而减少了空间和模型延迟，同时几乎不损失模型的准确性。
图表
解决问题

本论文旨在探讨现代LLMs如何处理子词，以及LLMs是否在内部编码单词，以及如何编码单词。
关键思路

LLMs进行内在的分词处理，将子词序列组合成连贯的单词表示。这个过程主要发生在模型的早期和中间层。这种编码方式对于非形态分割、错别字和未知单词都是鲁棒的。
其它亮点

实验表明，这种内在的分词处理方式可以扩展预训练模型的词汇表，从而减少输入长度和推理迭代次数，降低模型的空间和延迟，而几乎不损失模型的准确性。该论文的研究方法和实验结果值得进一步研究。
相关研究

最近的相关研究包括：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。

From Tokens to Words: On the Inner Lexicon of LLMs

评论