One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers

2025年06月12日
  • 简介
    同时为多种语言预训练大规模多语言大模型(LLMs)具有挑战性,这是因为模型容量有限、高质量数据稀缺以及计算资源受限。此外,分词器的语言覆盖不足,使得仅靠后训练阶段来弥补新语言的差距变得更加困难。在这项工作中,我们研究了在训练早期哪些相对低成本的干预措施可以提升模型的“语言可塑性”,即后训练阶段对新语言的适应能力。我们重点关注分词器的设计,并提出使用一种通用分词器,该分词器针对比主要预训练语言更多的语言进行训练,从而在预训练后有效扩展语言覆盖范围。我们的系统性实验涵盖了不同语言群体和多种训练策略,结果表明,通用分词器能够显著提高语言适应能力,相较于仅针对预训练语言的专用分词器,胜率最高可提升20.2%。此外,通用分词器还使模型对分词器和预训练中完全未见过的语言展现出更好的可塑性,胜率最高可提升5%。我们通过这种方式,在几乎不影响预训练中大多数语言性能的前提下,成功实现了对更广泛语言集合的适应。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决多语言大型语言模型(LLM)在预训练阶段由于模型容量、高质量数据稀缺和计算资源限制而导致的语言覆盖不足问题。此外,还探讨了如何通过早期干预提高模型对新语言的适应能力(即语言可塑性)。这是一个持续研究的问题,但特别关注了 tokenizer 设计对语言扩展的影响。
  • 关键思路
    论文的关键思路是设计一个‘通用 tokenizer’,其训练语言数量超过预训练的主要语言范围。这种 tokenizer 能够在预训练后显著增强模型对新语言的适应能力,而不会大幅牺牲已涵盖语言的性能。相比传统的仅针对预训练语言设计的 tokenizer,这种方法具有更高的灵活性和扩展性。
  • 其它亮点
    1. 系统实验表明,使用通用 tokenizer 可使语言适应能力提升高达20.2%的胜率; 2. 即使对于完全未见的语言,也能带来5%的胜率增益; 3. 实验涵盖了多样化的语言组,并测试了不同的训练策略; 4. 方法几乎不降低预训练语言的性能; 5. 论文未明确提及代码开源情况,但提供了详细的实验设置和数据集信息,为后续研究提供了参考基础。
  • 相关研究
    近期相关研究包括:1) Google 的 mT5 和 XLM-R 模型,它们探索了大规模多语言预训练方法;2) Facebook 的 M2M-100,专注于构建更全面的语言覆盖;3) 'Byte-Level BPE' 和其他子词分割技术的研究,旨在优化 tokenizer 对低资源语言的支持;4) 'Multilingual Tokenization Strategies for Neural Machine Translation',讨论了多语言场景下的 tokenization 最佳实践。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问