- 简介随着多语言语言模型(MLLMs)和大型语言模型的出现,自然语言处理的许多领域都出现了创新。尽管这项技术有着令人兴奋的潜力,但它对于开发低资源语言的高质量机器翻译输出的影响仍然相对未被探索。此外,目前还没有一个面向低资源语言的、专门用于微调MLLMs和管理完整机器翻译工作流程的开源应用程序。我们旨在通过开发adaptMLLM来解决这些不平衡问题,该应用程序简化了所有微调MLLMs进行机器翻译所涉及的流程。这个开源应用程序专为从事机器翻译的开发人员、翻译人员和用户量身定制。直观的界面允许轻松自定义超参数,并提供一系列用于模型评估的指标以及在应用程序内直接部署模型作为翻译服务的能力。作为一个多语言工具,我们使用adaptMLLM为两个低资源语言对进行了模型微调:英语到爱尔兰语(EN $\leftrightarrow$ GA)和英语到马拉地语(EN $\leftrightarrow$ MR)。与LoResMT2021共享任务的基线相比,adaptMLLM系统表现出了显着的改进。在EN $\rightarrow$ GA方向上,观察到了5.2 BLEU分数的提高,而在GA $\rightarrow$ EN方向上则记录了40.5 BLEU分数的增加。EN $\leftrightarrow$ MR对的翻译性能也有显著的提高,特别是在MR $\rightarrow$ EN方向上,BLEU分数增加了21.3个点。最后,使用多维质量度量和标量质量度量错误分类对EN $\rightarrow$ GA对的MLLM输出进行了细致的人工评估。该应用程序和模型是免费提供的。
-
- 图表
- 解决问题本论文的问题是探究如何利用Multilingual Language Models (MLLMs)和Large Language Models技术来提高低资源语言机器翻译的质量。
- 关键思路论文提出了一个名为adaptMLLM的开源应用程序,旨在简化MLLMs fine-tuning和低资源语言机器翻译的整个流程。该应用程序提供了直观的界面,可以轻松定制超参数,并提供了一系列用于模型评估的指标和在应用程序内部部署模型作为翻译服务的功能。
- 其它亮点论文使用adaptMLLM为两种低资源语言对(英语到爱尔兰语和英语到马拉地语)fine-tune模型,并与LoResMT2021共享任务的基线进行比较。结果表明,adaptMLLM系统在EN->GA方向上提高了5.2 BLEU分数,在GA->EN方向上提高了40.5 BLEU分数,并且在EN<->MR对的翻译性能方面也有显著提高。论文还进行了人类评估,使用了Multidimensional Quality Metrics和Scalar Quality Metrics错误分类法。
- 最近在这个领域中,还有一些相关的研究,例如《Unsupervised Multilingual Representation Learning for Low-Resource Cross-Lingual NER》、《A survey of low-resource machine learning for NLP》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流