SambaLingo: Teaching Large Language Models New Languages

2024年04月08日
  • 简介
    尽管LLM已经广泛可用,但在不同语言中仍存在实现能力和可用性上的巨大差距。解决这些问题的一种方法是采用现有的预训练LLM,并继续在新语言上进行训练。虽然以前的研究已经尝试了语言适应,但是最佳实践和方法论方面还有许多问题没有得到解决。在本文中,我们对LLM适应新语言的过程进行了全面的调查。我们的研究涵盖了该过程的关键组成部分,包括词汇扩展、直接优化偏好和低资源语言中人类对齐的数据稀缺问题。我们将这些实验扩展到了9种语言和2个参数规模(7B和70B)。我们将我们的模型与Llama 2、Aya-101、XGLM、BLOOM和现有的语言专家进行了比较,优于所有以前发表的基线。此外,所有评估代码和检查点都已公开,以便促进未来的研究。
  • 作者讲解·2
  • 图表
  • 解决问题
    本论文旨在探讨如何将现有的预训练语言模型(LLMs)适应到新的语言上,以解决LLMs在跨语言应用中的局限性和可用性问题。
  • 关键思路
    本论文提出了一种综合性的方法来适应LLMs到新的语言上,包括词汇扩展、直接优化偏好和解决低资源语言中人工对齐数据稀缺性的问题。
  • 其它亮点
    本研究在9种语言和2种参数规模(7B和70B)上进行了实验,并与Llama 2、Aya-101、XGLM、BLOOM和现有的语言专家进行了比较,结果表明本文提出的方法优于所有已发表的基线。此外,本文公开了所有评估代码和检查点以促进未来的研究。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Cross-lingual Language Model Pretraining》、《Unsupervised Cross-Lingual Representation Learning at Scale》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问