CantonMT: Cantonese to English NMT Platform with Fine-Tuned Models Using Synthetic Back-Translation Data

2024年03月17日
  • 简介
    神经机器翻译(NMT)对于低资源语言仍然是自然语言处理研究人员面临的一个挑战。在这项工作中,我们将标准的数据增强方法——回译,应用到一个新的语言翻译方向——粤语到英语。我们展示了我们使用有限的真实数据和通过回译生成的合成数据进行微调的模型,包括OpusMT、NLLB和mBART。我们使用一系列不同的指标,包括基于词汇和基于嵌入的指标进行了自动评估。此外,我们为本次CantonMT研究项目中包含的模型创建了一个用户友好的界面,并使其可用以促进粤语到英语机器翻译研究。研究人员可以通过我们的开源CantonMT工具包\url{https://github.com/kenrickkung/CantoneseTranslation}将更多模型添加到该平台中。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决低资源语言的神经机器翻译问题,通过数据增强方法back-translation将Cantonese-to-English翻译方向引入新的语言翻译方向。
  • 关键思路
    通过使用有限的真实数据和生成的合成数据fine-tune模型,包括OpusMT、NLLB和mBART,并使用基于词汇和嵌入的不同度量标准进行自动评估。
  • 其它亮点
    论文提供了一个用户友好的界面,供研究人员使用Cantonese-to-English MT模型,并开源了CantonMT工具包。实验设计详细,使用了多个数据集和不同的评估指标。
  • 相关研究
    最近的相关研究包括使用back-translation进行低资源语言翻译的其他论文,如《Unsupervised Data Augmentation for Consistency Training》和《Unsupervised Neural Machine Translation with Weight Sharing》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问