Bilingual Adaptation of Monolingual Foundation Models

简介

我们提出了一种有效的方法，将单语言大型语言模型（LLM）适应到另一种语言，解决了灾难性遗忘和分词器限制等挑战。我们的研究重点是将Llama 2适应到阿拉伯语。我们的两阶段方法始于扩展词汇表，并仅训练嵌入矩阵，随后在双语语料库上进行完整的模型持续预训练。通过在阿拉伯语和英语语料库的混合上持续预训练，该模型在保持英语熟练度的同时，获得了阿拉伯语的能力。我们的方法在阿拉伯语方面取得了显著的提高，而在英语方面略有提高，展示了具有成本效益的跨语言转移。我们还对嵌入初始化技术、数据混合比例和学习率进行了广泛的消融分析，并发布了详细的训练配方。
图表
解决问题

本文旨在提出一种有效的方法，将单语言大型语言模型（LLM）适应到另一种语言中，解决灾难性遗忘和分词器限制等挑战。具体地，本文以Llama 2为例，将其适应到阿拉伯语中。
关键思路

本文提出了一种两阶段的方法：首先扩展词汇表，仅训练嵌入矩阵，然后在双语语料库上进行全模型持续预训练。通过在阿拉伯语和英语语料库的混合中持续预训练，模型保留了其在英语方面的熟练程度，同时获得了阿拉伯语的能力。该方法在阿拉伯语方面取得了显著的改进，在英语方面也略有提高，展示了具有成本效益的跨语言转移。
其它亮点

本文还进行了嵌入初始化技术、数据混合比率和学习率等方面的大量消融实验，并发布了详细的训练配方。本文的实验设计合理，使用了开源数据集，并提供了详细的训练配方。
相关研究

近期在该领域的相关研究包括：《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Unsupervised Cross-lingual Representation Learning at Scale》等。

Bilingual Adaptation of Monolingual Foundation Models

评论