- 简介最近的自然语言处理(NLP)研究在高资源语言的机器翻译(MT)、新闻分类和问答等任务中取得了令人瞩目的表现。然而,低资源语言的机器翻译表现仍有很大的提升空间。这是由于这些语言可用的平行语料库较小,有时甚至没有。埃塞俄比亚语言的NLP也面临着同样的问题,因为缺乏公开可访问的NLP任务数据集,包括机器翻译。为了帮助研究社区并促进埃塞俄比亚语言的研究,我们介绍了EthioMT——一个包含15种语言的新的平行语料库。我们还通过收集更为研究充分的埃塞俄比亚语言的数据集,创建了一个新的基准。我们使用Transformer和Fine-tuning方法对23种埃塞俄比亚语言的新收集的语料库和基准数据集进行了评估。
- 图表
- 解决问题EthioMT: 为15种语言创建新的平行语料库,以解决低资源语言机器翻译的问题。同时,收集了23种埃塞俄比亚语言的数据集,为该领域的研究提供了新的基准。
- 关键思路论文使用transformer和fine-tuning方法对新收集的平行语料库和基准数据集进行了评估。
- 其它亮点论文提供了EthioMT平行语料库,并收集了23种埃塞俄比亚语言的数据集,为低资源语言机器翻译和该领域的研究提供了新的资源。实验结果表明,使用transformer和fine-tuning方法可以提高翻译性能。论文提供了开源代码和模型。
- 最近的相关研究包括《Towards Building Large Scale Language Resources for Amharic》、《A Hybrid Approach for Amharic Part-of-Speech Tagging》等。
沙发等你来抢
去评论
评论
沙发等你来抢