- 简介我们填补了自然语言处理(NLP)领域的一个显著空白,引入了一系列资源,旨在改进低资源语言的机器翻译(MT),特别关注非洲语言。首先,我们介绍了两个语言模型(LM),Cheetah-1.2B和Cheetah-3.7B,分别具有12亿和37亿个参数。接下来,我们微调上述模型,创建了toucan,这是一个非洲中心的机器翻译模型,旨在支持156种非洲语言对。为了评估Toucan,我们精心开发了一个广泛的机器翻译基准,称为AfroLingu-MT,专门用于评估机器翻译。Toucan显著优于其他模型,展示了其在非洲语言的机器翻译方面的出色表现。最后,我们训练了一个新模型spBLEU-1K,以增强翻译评估指标,覆盖了1K种语言,包括614种非洲语言。这项工作旨在推进NLP领域,促进跨文化理解和知识交流,特别是在像非洲这样语言资源有限的地区。Toucan项目的GitHub存储库位于https://github.com/UBC-NLP/Toucan。
- 图表
- 解决问题本论文的问题是解决低资源语言机器翻译的问题,特别是针对非洲语言。论文介绍了两个语言模型和一个针对156种非洲语言的机器翻译模型,以及一个用于评估机器翻译的基准测试集。
- 关键思路论文的关键思路是通过引入两个大型语言模型,并针对非洲语言进行微调,从而创建一个针对156种非洲语言的机器翻译模型,名为toucan。该模型在非洲语言机器翻译方面表现出色。
- 其它亮点论文的亮点包括:1. 引入两个大型语言模型,Cheetah-1.2B和Cheetah-3.7B;2. 创建一个针对156种非洲语言的机器翻译模型,名为toucan,并介绍了一个用于评估机器翻译的基准测试集AfroLingu-MT;3. 训练了一个新的模型,spBLEU-1K,用于增强翻译评估指标,涵盖了614种非洲语言。论文的代码在GitHub上开源。
- 最近在这个领域中,也有一些相关的研究,例如“Unsupervised Machine Translation for African Languages Using Monolingual Corpora Only”和“NMT-KNN: An Accurate and Robust Neural Machine Translation Model for Low-Resource Languages”。
沙发等你来抢
去评论
评论
沙发等你来抢