From Tokens to Words: On the Inner Lexicon of LLMs

Guy Kaplan ,
Matanel Oren ,
Yuval Reif ,
Roy Schwartz
2024年10月08日
  • 简介
    自然语言由单词组成,但现代的LLM处理的是子词作为输入。这种差异引发的一个自然问题是LLM是否在内部编码单词,如果是,那么是怎样的过程。我们提供了证据表明LLM会进行内在的去分词过程,将子词序列组合成连贯的单词表示。我们的实验表明,这个过程主要发生在模型的早期和中间层。它们还表明,这个过程对于非形态切分、打字错误和重要的词汇外单词是稳健的:当将这些单词的内部表示作为输入向量馈送给模型时,它可以“理解”它们,尽管在训练期间从未见过它们。我们的发现表明,LLM在分词器范围之外维护一个潜在的词汇表。这些见解提供了一个实用的、无需微调的应用程序,用于扩展预训练模型的词汇量。通过增加新的词汇,我们减少了输入长度和推理迭代次数,从而减少了空间和模型延迟,同时几乎不损失模型的准确性。
  • 图表
  • 解决问题
    本论文旨在探讨现代LLMs如何处理子词,以及LLMs是否在内部编码单词,以及如何编码单词。
  • 关键思路
    LLMs进行内在的分词处理,将子词序列组合成连贯的单词表示。这个过程主要发生在模型的早期和中间层。这种编码方式对于非形态分割、错别字和未知单词都是鲁棒的。
  • 其它亮点
    实验表明,这种内在的分词处理方式可以扩展预训练模型的词汇表,从而减少输入长度和推理迭代次数,降低模型的空间和延迟,而几乎不损失模型的准确性。该论文的研究方法和实验结果值得进一步研究。
  • 相关研究
    最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论