Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects

2024年06月27日
  • 简介
    Yoruba是一种非洲语言,约有4700万人讲这种语言,包含多个方言。最近,开发非洲语言的自然语言处理技术主要集中在标准方言上,这导致了对于那些缺乏资源和工具的方言和变体存在差异。我们通过引入一个新的高质量平行文本和语音语料库YORULECT,跨越三个领域和四个地区的Yoruba方言,采取措施来弥合这个差距。为了开发这个语料库,我们与母语讲者合作,前往这些方言被使用的社区收集文本和语音数据。使用我们新创建的语料库,我们进行了大量的实验,包括(文本)机器翻译、自动语音识别和语音到文本翻译。我们的结果显示,在所有任务中,标准Yoruba和其他方言之间存在着实质性的性能差异。然而,我们还表明,通过方言自适应微调,我们能够缩小这个差距。我们相信我们的数据集和实验分析将对开发Yoruba及其方言的NLP工具做出巨大贡献,并通过提供高质量的数据集来进一步开发其他非洲语言。我们公开发布YORULECT数据集和模型,采用开放式许可证。
  • 图表
  • 解决问题
    解决问题:论文试图通过引入一个新的高质量平行文本和语音语料库YOR'ULECT来解决Yoruba非标准方言缺乏资源和工具的问题。同时,通过实验分析探究标准方言和其他方言在NLP任务上的性能差异。
  • 关键思路
    关键思路:通过采集四种地区的Yoruba方言的文本和语音数据,创建了一个新的高质量的平行文本和语音语料库YOR'ULECT,并使用该语料库进行了机器翻译、自动语音识别和语音转文本翻译的实验。实验结果显示标准方言和其他方言在所有任务上的性能存在巨大差异,但通过方言自适应微调,能够缩小这种差距。
  • 其它亮点
    其他亮点:该论文提供了一个新的高质量平行文本和语音语料库YOR'ULECT,并在该语料库上进行了多个NLP任务的实验。实验结果表明,标准方言和其他方言在NLP任务上存在显著性能差异,但通过方言自适应微调,能够缩小这种差距。该语料库和模型已公开发布。
  • 相关研究
    相关研究:最近在该领域中,也有一些关于非标准方言缺乏资源和工具的研究,例如《African Language Technology Challenges》。此外,也有一些关于NLP技术在非标准方言上的应用的研究,例如《Building a Large-Scale Machine Translation System for African Languages》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论