- 简介我们填补了自然语言处理(NLP)领域的一个显著空白,推出了一系列旨在提高低资源语言机器翻译(MT)水平的资源,特别关注非洲语言。首先,我们介绍了两个语言模型(LMs),Cheetah-1.2B和Cheetah-3.7B,分别具有12亿和37亿个参数。接下来,我们对上述模型进行微调,创建了toucan,这是一个非洲中心的机器翻译模型,旨在支持156种非洲语言对。为了评估Toucan,我们精心制定了一个广泛的机器翻译基准,称为AfroLingu-MT,专门用于评估机器翻译。Toucan明显优于其他模型,展示了它在非洲语言机器翻译方面的显着性能。最后,我们训练了一个新模型,spBLEU-1K,以增强翻译评估指标,覆盖了1K种语言,包括614种非洲语言。本工作旨在推进NLP领域,促进跨文化理解和知识交流,特别是在资源受限的地区,如非洲。Toucan项目的GitHub存储库可在https://github.com/UBC-NLP/Toucan 上获得。
- 图表
- 解决问题这篇论文试图解决低资源语言机器翻译的问题,特别关注非洲语言。是否为一个新问题不确定。
- 关键思路论文提出了两个语言模型Cheetah-1.2B和Cheetah-3.7B,并使用这些模型创建了Afrocentric机器翻译模型Toucan,支持156种非洲语言对。同时,论文还训练了一个新的模型spBLEU-1K,用于增强翻译评估指标,覆盖614种非洲语言和1000种语言。相比当前领域的研究状况,这篇论文的关键思路是针对非洲语言进行机器翻译,并且提供了相应的资源和评估指标。
- 其它亮点论文使用了自己提出的语言模型和机器翻译模型,相比其他模型表现更好。同时,论文还提供了一个新的翻译评估指标模型,并覆盖了614种非洲语言和1000种语言。论文的代码和数据集都已经开源。这篇论文的亮点是提出了针对非洲语言的机器翻译资源,有助于促进非洲地区的跨文化交流。
- 最近在这个领域中,也有一些相关的研究。例如,2019年的论文《Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges》也关注了低资源语言机器翻译的问题,并提出了一些解决方案。
沙发等你来抢
去评论
评论
沙发等你来抢