SambaLingo: Teaching Large Language Models New Languages

简介

尽管LLM已经广泛可用，但在不同语言中仍存在实现能力和可用性上的巨大差距。解决这些问题的一种方法是采用现有的预训练LLM，并继续在新语言上进行训练。虽然以前的研究已经尝试了语言适应，但是最佳实践和方法论方面还有许多问题没有得到解决。在本文中，我们对LLM适应新语言的过程进行了全面的调查。我们的研究涵盖了该过程的关键组成部分，包括词汇扩展、直接优化偏好和低资源语言中人类对齐的数据稀缺问题。我们将这些实验扩展到了9种语言和2个参数规模（7B和70B）。我们将我们的模型与Llama 2、Aya-101、XGLM、BLOOM和现有的语言专家进行了比较，优于所有以前发表的基线。此外，所有评估代码和检查点都已公开，以便促进未来的研究。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

本论文旨在探讨如何将现有的预训练语言模型（LLMs）适应到新的语言上，以解决LLMs在跨语言应用中的局限性和可用性问题。
关键思路

本论文提出了一种综合性的方法来适应LLMs到新的语言上，包括词汇扩展、直接优化偏好和解决低资源语言中人工对齐数据稀缺性的问题。
其它亮点

本研究在9种语言和2种参数规模（7B和70B）上进行了实验，并与Llama 2、Aya-101、XGLM、BLOOM和现有的语言专家进行了比较，结果表明本文提出的方法优于所有已发表的基线。此外，本文公开了所有评估代码和检查点以促进未来的研究。
相关研究

最近在这个领域中，还有一些相关的研究，如《Cross-lingual Language Model Pretraining》、《Unsupervised Cross-Lingual Representation Learning at Scale》等。

SambaLingo: Teaching Large Language Models New Languages

提问交流

提问交流