《LoResMT 2021 | 为翻译资源不足的语言,Transformers的专项微调》

作者:

  • Karthik Puranik、Adeep Hande: 印度IIITT团队
  • Ruba Priyadharshini : 印度泰米尔纳德邦马杜赖Ultra文理学院
  • Thenmozi Duraraj : 印度斯里·西瓦苏布拉马尼亚·纳达尔工程学院
  • Anbukkarasi Sampath:印度孔古工程学院
  • Kingston Pal Thambraj:马来西亚苏丹伊德里斯教育大学
  • Bharati Raja Chakravarthi:爱尔兰国立大学

 


推荐理由:预训练模型的微调技术,在低资源语言机器翻译中的应用。


作者:印度IIITT团队、马来西亚苏丹伊德里斯教育大学、爱尔兰国立大学


摘要:本文报告了印度IIITT团队为"英语至马拉地语"、和"英语至爱尔兰语",针对LoResMT (低资源语言机器翻译技术研讨会)2021共享任务提交的机器翻译系统。这项任务的重点是为爱尔兰语和马拉地语等资源相对匮乏的语言提供良好的翻译。研究者使用外部平行语料库作为额外训练的输入,对模型进行微调、并获得预期效果。其中针对"英语对马拉地语",使用的是Indicatrans预训练多语言机器翻译模型;而针对"英语至爱尔兰语",使用的是Helsinki-NLP Opus预训练机器翻译模型。

本文所使用的方法在BLEU指标评价上,获得了相对良好的预期结果:

在"英语至马拉地语"、"爱尔兰语至英语"、和"英语至爱尔兰语"的翻译指标评价中,分别荣获排名第1、第1、和第2的好成绩。


注:(1)IIITT,也称为:IIIT Trichy,是印度一家具有国家性质的信息技术研究所。

       (2)LoResMT:低资源语言机器翻译技术研讨会。

 

下载地址:https://arxiv.org/pdf/2108.08556.pdf
Hub地址:https://hub.baai.ac.cn/view/9371

内容中包含的图片若涉及版权问题,请及时与我们联系删除