- 简介现在,最先进的大语言模型的预训练需要数万亿的文字,这比大多数语言可用的文字数量高出数个数量级。虽然在多种语言中包含文本是获取更多预训练数据的显而易见的方法,但多语言通常被视为诅咒,大多数模型训练工作仍然专注于个别大语言。我们认为,多语言可以成为一种福音,并且通过多语言训练,应该能够大大提高小语种的单语模型的能力。在本研究中,我们介绍了Poro 34B,这是一个使用芬兰语、英语和编程语言的1万亿个标记进行训练的340亿参数模型,并证明了多语言训练方法可以产生一个模型,不仅在芬兰语方面的能力大大超越了现有模型,而且在翻译方面表现出色,在生成英语和编程语言方面也具有竞争力。我们在https://huggingface.co/LumiOpen/Poro-34B上以开放许可发布模型参数、脚本和数据。
- 图表
- 解决问题本文旨在通过多语言训练方法,提高小语种模型的性能,解决小语种数据不足的问题,同时验证多语言训练方法的有效性。
- 关键思路本文采用多语言训练方法,训练了一个34亿参数的模型,使用了1万亿标记的芬兰语、英语和编程语言数据集。结果表明,相比现有的模型,该模型在芬兰语方面的性能有了大幅提升,同时在英语和编程语言方面也表现出了竞争力。
- 其它亮点本文提出的多语言训练方法可以有效提高小语种模型的性能,同时在其他语言方面也有较好的表现。实验使用了1万亿标记的数据集,并且开源了模型参数、脚本和数据集。
- 最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Unsupervised Cross-lingual Representation Learning at Scale》等。
沙发等你来抢
去评论
评论
沙发等你来抢