Zero-Shot Tokenizer Transfer

2024年05月13日
  • 简介
    语言模型(LMs)受其分词器的限制,分词器将原始文本映射为词汇项(标记)序列。这限制了它们的灵活性:例如,主要训练英语的LMs可能在其他自然语言和编程语言上表现良好,但由于其英语中心的分词器,效率大大降低。为了缓解这种情况,我们应该能够在不降低性能的情况下即时地使用任意分词器替换原始的LM分词器。因此,在这项工作中,我们定义了一个新问题:零-shot分词器转移(ZeTT)。 ZeTT的核心挑战是为新分词器词汇表中的标记找到嵌入。由于以前的启发式初始化嵌入的方法在ZeTT设置中通常表现为随机水平,因此我们提出了一个新的解决方案:我们训练一个超网络,该超网络将分词器作为输入并预测相应的嵌入。我们通过实验证明,该超网络适用于具有编码器(例如XLM-R)和解码器LLMs(例如Mistral-7B)的新分词器。我们的方法在跨语言和编码任务中接近原始模型的性能,同时显着减少了标记化序列的长度。我们还发现,剩余的差距可以通过在少于10亿个标记的数据上继续训练来迅速缩小。最后,我们展示了一个针对基础(L)LM训练的ZeTT超网络也可以应用于微调变体而无需额外训练。总体而言,我们的结果在将LMs与其分词器分离方面取得了实质性进展。
  • 图表
  • 解决问题
    本文提出了一种新问题:零射击分词器转移(ZeTT),旨在解决语言模型(LM)在不同分词器下的效率问题。
  • 关键思路
    本文提出了一种新的解决方案:训练一个超网络,将分词器作为输入,并预测相应的嵌入,从而解决ZeTT的核心挑战-为新分词器的词汇表中的标记找到嵌入。
  • 其它亮点
    实验表明,超网络可以推广到具有编码器(如XLM-R)和解码器LLM(如Mistral-7B)的新分词器。该方法可以在跨语言和编码任务中接近原始模型的性能,同时显着减少标记序列的长度。最后,本文证明了ZeTT超网络可以应用于基本(L)LM的微调变体,而无需额外的训练。
  • 相关研究
    最近的相关研究包括:《Cross-lingual Language Model Pretraining》、《Unsupervised Cross-lingual Representation Learning at Scale》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论