Which Nigerian-Pidgin does Generative AI speak?: Issues about Representativeness and Bias for Multilingual and Low Resource Languages

2024年04月30日
  • 简介
    Naija是尼日利亚皮钦语,大约有1.2亿人在尼日利亚使用,是一种混合语言(例如英语、葡萄牙语和土著语言)。虽然直到最近它主要是一种口语,但目前有两种书面文体(BBC和维基百科)的Naija。通过统计分析和机器翻译实验,我们证明这两种文体并不代表彼此(即在词序和词汇方面存在语言差异),生成式人工智能只基于BBC文体的Naija运作。换句话说,维基百科文体的Naija在生成式人工智能中并没有代表性。
  • 图表
  • 解决问题
    这篇论文旨在解决Naija语言中两种不同书写风格(BBC和Wikipedia)之间的差异问题,以及这些差异对于生成式人工智能的影响。
  • 关键思路
    通过统计分析和机器翻译实验,论文证明了这两种不同书写风格之间存在语言差异,而生成式人工智能只能基于BBC风格的Naija进行操作。
  • 其它亮点
    论文使用了统计分析和机器翻译实验来验证Naija语言中两种书写风格之间的差异,并且提出了生成式人工智能只能基于BBC风格的Naija进行操作的结论。实验数据集包括BBC和Wikipedia的Naija语料库。论文的结论对于Naija语言的自然语言处理有重要意义。
  • 相关研究
    在Naija语言的自然语言处理领域,还有一些相关研究,例如《Naija Lang: A New Language for African Literature》和《Naija Lang: A corpus for Machine Translation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论