EthioMT: Parallel Corpus for Low-resource Ethiopian Languages

2024年03月28日
  • 简介
    最近的自然语言处理(NLP)研究在高资源语言的机器翻译(MT)、新闻分类和问答等任务中取得了令人瞩目的表现。然而,低资源语言的机器翻译表现仍有很大的提升空间。这是由于这些语言可用的平行语料库较小,有时甚至没有。埃塞俄比亚语言的NLP也面临着同样的问题,因为缺乏公开可访问的NLP任务数据集,包括机器翻译。为了帮助研究社区并促进埃塞俄比亚语言的研究,我们介绍了EthioMT——一个包含15种语言的新的平行语料库。我们还通过收集更为研究充分的埃塞俄比亚语言的数据集,创建了一个新的基准。我们使用Transformer和Fine-tuning方法对23种埃塞俄比亚语言的新收集的语料库和基准数据集进行了评估。
  • 图表
  • 解决问题
    EthioMT: 为15种语言创建新的平行语料库,以解决低资源语言机器翻译的问题。同时,收集了23种埃塞俄比亚语言的数据集,为该领域的研究提供了新的基准。
  • 关键思路
    论文使用transformer和fine-tuning方法对新收集的平行语料库和基准数据集进行了评估。
  • 其它亮点
    论文提供了EthioMT平行语料库,并收集了23种埃塞俄比亚语言的数据集,为低资源语言机器翻译和该领域的研究提供了新的资源。实验结果表明,使用transformer和fine-tuning方法可以提高翻译性能。论文提供了开源代码和模型。
  • 相关研究
    最近的相关研究包括《Towards Building Large Scale Language Resources for Amharic》、《A Hybrid Approach for Amharic Part-of-Speech Tagging》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论