- 简介最近的大型语言模型(LLM)在低资源语言上表现不佳,因为这些模型的训练数据通常被英语和其他高资源语言所占据。此外,由于缺乏高质量的训练数据,尤其是从头开始训练低资源语言的模型是具有挑战性的。调整预训练的LLM可以减少新语言中数据的需求,同时提供跨语言转移能力。然而,简单地适应新语言会导致灾难性的遗忘和低效的分词器效率。在这项工作中,我们研究如何有效地将任何现有的预训练LLM适应到新语言,而不会遇到这些问题。特别地,我们通过添加来自目标语言的新标记来改善分词器的编码效率,并研究数据混合配方以减轻遗忘。我们在将英语LLM适应到匈牙利语和泰语方面的实验表明,我们的配方可以在目标语言上达到比开源模型更好的性能,同时在英语上也只有最小的回归。
-
- 图表
- 解决问题如何高效地将现有的大型语言模型适应到低资源语言?如何避免灾难性遗忘和令人满意的编码效率?
- 关键思路在目标语言中添加新的令牌以提高编码效率,并研究数据混合配方以减轻遗忘。
- 其它亮点实验表明,论文的配方可以在匈牙利语和泰语上比开源模型表现更好,同时对英语的影响很小。
- 相关论文:1. Cross-lingual Language Model Pretraining(Guillaume Lample and Alexis Conneau,Facebook AI Research);2. Unsupervised Cross-lingual Representation Learning at Scale(Alexis Conneau等,Facebook AI Research);3. XLM-R: Unsupervised Cross-lingual Representation Learning at Scale(Alexis Conneau等,Facebook AI Research)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~

提问交流