- 简介我们提出了一种有效的方法,将单语言大型语言模型(LLM)适应到另一种语言,解决了灾难性遗忘和分词器限制等挑战。我们的研究重点是将Llama 2适应到阿拉伯语。我们的两阶段方法始于扩展词汇表,并仅训练嵌入矩阵,随后在双语语料库上进行完整的模型持续预训练。通过在阿拉伯语和英语语料库的混合上持续预训练,该模型在保持英语熟练度的同时,获得了阿拉伯语的能力。我们的方法在阿拉伯语方面取得了显著的提高,而在英语方面略有提高,展示了具有成本效益的跨语言转移。我们还对嵌入初始化技术、数据混合比例和学习率进行了广泛的消融分析,并发布了详细的训练配方。
- 图表
- 解决问题本文旨在提出一种有效的方法,将单语言大型语言模型(LLM)适应到另一种语言中,解决灾难性遗忘和分词器限制等挑战。具体地,本文以Llama 2为例,将其适应到阿拉伯语中。
- 关键思路本文提出了一种两阶段的方法:首先扩展词汇表,仅训练嵌入矩阵,然后在双语语料库上进行全模型持续预训练。通过在阿拉伯语和英语语料库的混合中持续预训练,模型保留了其在英语方面的熟练程度,同时获得了阿拉伯语的能力。该方法在阿拉伯语方面取得了显著的改进,在英语方面也略有提高,展示了具有成本效益的跨语言转移。
- 其它亮点本文还进行了嵌入初始化技术、数据混合比率和学习率等方面的大量消融实验,并发布了详细的训练配方。本文的实验设计合理,使用了开源数据集,并提供了详细的训练配方。
- 近期在该领域的相关研究包括:《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Unsupervised Cross-lingual Representation Learning at Scale》等。
沙发等你来抢
去评论
评论
沙发等你来抢