EthioMT: Parallel Corpus for Low-resource Ethiopian Languages

简介

最近的自然语言处理（NLP）研究在高资源语言的机器翻译（MT）、新闻分类和问答等任务中取得了令人瞩目的表现。然而，低资源语言的机器翻译表现仍有很大的提升空间。这是由于这些语言可用的平行语料库较小，有时甚至没有。埃塞俄比亚语言的NLP也面临着同样的问题，因为缺乏公开可访问的NLP任务数据集，包括机器翻译。为了帮助研究社区并促进埃塞俄比亚语言的研究，我们介绍了EthioMT——一个包含15种语言的新的平行语料库。我们还通过收集更为研究充分的埃塞俄比亚语言的数据集，创建了一个新的基准。我们使用Transformer和Fine-tuning方法对23种埃塞俄比亚语言的新收集的语料库和基准数据集进行了评估。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

EthioMT: 为15种语言创建新的平行语料库，以解决低资源语言机器翻译的问题。同时，收集了23种埃塞俄比亚语言的数据集，为该领域的研究提供了新的基准。
关键思路

论文使用transformer和fine-tuning方法对新收集的平行语料库和基准数据集进行了评估。
其它亮点

论文提供了EthioMT平行语料库，并收集了23种埃塞俄比亚语言的数据集，为低资源语言机器翻译和该领域的研究提供了新的资源。实验结果表明，使用transformer和fine-tuning方法可以提高翻译性能。论文提供了开源代码和模型。
相关研究

最近的相关研究包括《Towards Building Large Scale Language Resources for Amharic》、《A Hybrid Approach for Amharic Part-of-Speech Tagging》等。

EthioMT: Parallel Corpus for Low-resource Ethiopian Languages

提问交流

提问交流