作者: Machel Reid, Junjie Hu, Graham Neubig, Yutaka Matsuo
简介:本文提出AfroMT:一种标准化、干净且可重复的机器翻译基准。可重复的基准测试对于推动机器翻译研究的进展至关重要。然而,现有的机器翻译基准大多仅限于高资源或代表性良好的语言。尽管人们对低资源机器翻译越来越感兴趣,但许多非洲语言没有标准化的可重复基准,其中许多被数百万说话者使用,但文字数据数字化程度较低。为了应对这些挑战,本文提出了 AfroMT的机器翻译基准,适用于八种广泛使用的非洲语言。考虑到这些语言的独特属性,作者还开发了一套用于系统诊断的分析工具。此外尤为重要的是:作者探索了“低资源集中型”的预训练案例、并开发了两种新的基于数据增强的策略--利用词级对齐信息和伪单语数据,用于多语言序列到序列模型的预训练。在对11种语言进行预训练时,获得了显著的改进,比强基线提高了2 BLEU 点。实验还显示在数据受限的场景中,跨语言转换基线最多可提高 12 个 BLEU 点。再有:所有代码和预训练模型都将作为进一步的步骤发布、以实现更大的非洲语言模型可重复基准。
论文下载:https://arxiv.org/pdf/2109.04715.pdf
HUB地址:https://hub.baai.ac.cn/view/10094
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢