CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation

2024年05月13日
  • 简介
    本文研究了从粤语到英语的机器翻译模型的开发和评估,提出了一种新的方法来解决低资源语言翻译的问题。本研究的主要目标是开发一个能够有效翻译粤语到英语的模型,并将其与最先进的商业模型进行评估。为了实现这一目标,通过预处理和清理,将不同的可用语料库在线组合成了一个新的平行语料库。此外,通过网络爬虫技术创建了一个单语言粤语数据集,以帮助合成平行语料库的生成。在数据收集过程中,采用了多种方法,包括微调模型、回译和模型切换等。使用多个质量指标(包括基于词汇的指标(SacreBLEU和hLEPOR)和嵌入空间指标(COMET和BERTscore))对模型的翻译质量进行了评估。根据自动指标,选择了最佳模型,并使用人工评估框架HOPES将其与两个最佳商业翻译器进行比较。本研究提出的最佳模型(NLLB-mBART)使用模型切换机制,在自动评估得分方面达到了与最先进的商业模型(必应和百度翻译)相当甚至更好的水平,在我们的测试集上获得了16.8的SacreBLEU得分。此外,还开发了一个开源的Web应用程序,允许用户在本研究和用户的不同训练模型之间进行有效比较,实现了粤语和英语之间的翻译。CANTONMT可在https://github.com/kenrickkung/CantoneseTranslation上获得。
  • 图表
  • 解决问题
    本论文旨在开发和评估从粤语到英语的机器翻译模型,提出了一种新的方法来解决低资源语言翻译的问题。
  • 关键思路
    论文的关键思路是通过结合不同的在线语料库进行预处理和清洗来创建新的平行语料库,并通过网络爬虫创建单语粤语数据集来辅助合成平行语料库。在数据收集的过程中,使用了多种方法,包括微调模型、回译和模型切换。
  • 其它亮点
    论文使用多种质量评估指标对模型进行评估,包括基于词典的指标和嵌入空间指标。最佳模型(NLLB-mBART)通过模型切换机制在自动评估分数方面达到了与商业翻译器相当甚至更好的水平,并使用人类评估框架HOPES进行了比较。此外,论文还开发了一个开源的Web应用程序(CANTONMT),允许用户在不同的训练模型之间进行有效的比较。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Neural Machine Translation of Rare Words with Subword Units”和“Unsupervised Neural Machine Translation with Weight Sharing”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论