Bilingual Adaptation of Monolingual Foundation Models

2024年07月13日
  • 简介
    我们提出了一种有效的方法,将单语言大型语言模型(LLM)适应到另一种语言,解决了灾难性遗忘和分词器限制等挑战。我们的研究重点是将Llama 2适应到阿拉伯语。我们的两阶段方法始于扩展词汇表,并仅训练嵌入矩阵,随后在双语语料库上进行完整的模型持续预训练。通过在阿拉伯语和英语语料库的混合上持续预训练,该模型在保持英语熟练度的同时,获得了阿拉伯语的能力。我们的方法在阿拉伯语方面取得了显著的提高,而在英语方面略有提高,展示了具有成本效益的跨语言转移。我们还对嵌入初始化技术、数据混合比例和学习率进行了广泛的消融分析,并发布了详细的训练配方。
  • 图表
  • 解决问题
    本文旨在提出一种有效的方法,将单语言大型语言模型(LLM)适应到另一种语言中,解决灾难性遗忘和分词器限制等挑战。具体地,本文以Llama 2为例,将其适应到阿拉伯语中。
  • 关键思路
    本文提出了一种两阶段的方法:首先扩展词汇表,仅训练嵌入矩阵,然后在双语语料库上进行全模型持续预训练。通过在阿拉伯语和英语语料库的混合中持续预训练,模型保留了其在英语方面的熟练程度,同时获得了阿拉伯语的能力。该方法在阿拉伯语方面取得了显著的改进,在英语方面也略有提高,展示了具有成本效益的跨语言转移。
  • 其它亮点
    本文还进行了嵌入初始化技术、数据混合比率和学习率等方面的大量消融实验,并发布了详细的训练配方。本文的实验设计合理,使用了开源数据集,并提供了详细的训练配方。
  • 相关研究
    近期在该领域的相关研究包括:《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Unsupervised Cross-lingual Representation Learning at Scale》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论