- 简介近年来,大型语言模型(LLMs)在各种任务上已经达到了几乎与人类相当的表现。虽然一些LLMs已经在多语言数据上进行了训练,但大部分训练数据仍然是英语,因此它们在英语方面的表现远远超过其他语言。据我们所知,我们是第一个收集和翻译大量文本、说明和基准测试数据,并训练、评估和发布专门针对罗马尼亚语的开源LLMs的团队。我们在四个不同的类别上评估我们的方法,包括学术基准测试、MT-Bench(手动翻译)以及专业构建的历史、文化和社会基准测试,这些基准测试都是针对罗马尼亚语进行了适应。我们通过在各方面取得最先进的结果来证明RoLLMs的实用性和高性能。我们公开发布所有资源(即数据、训练和评估代码、模型),以支持和鼓励罗马尼亚语LLMs的研究,同时创建一个通用的配方,适用于其他低资源或少资源的语言。
- 图表
- 解决问题本论文旨在收集和翻译大量的文本、指令和基准,并针对罗马尼亚语训练、评估和发布开源的LLMs,以解决罗马尼亚语在自然语言处理中的低资源问题。
- 关键思路该论文的关键思路是针对罗马尼亚语的低资源问题,收集和翻译大量的文本、指令和基准,并训练、评估和发布开源的LLMs,以提高罗马尼亚语在自然语言处理中的表现。
- 其它亮点该论文收集和翻译了大量的文本、指令和基准,并针对罗马尼亚语训练了LLMs,实验结果表明在四个不同的类别中都取得了最先进的结果。论文公开了所有资源,包括数据、训练和评估代码、模型等,以支持和鼓励罗马尼亚语LLMs的研究,同时创建了一个通用的方法,适用于其他低资源语言。
- 最近在这个领域中,也有一些研究关注低资源语言的自然语言处理,例如《Unsupervised Neural Machine Translation for Low-Resource Domains》、《Cross-lingual Language Model Pretraining》等。
沙发等你来抢
去评论
评论
沙发等你来抢