IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

2024年06月05日
  • 简介
    尽管大型语言模型(LLMs)已被广泛采用,但它们卓越的能力仍然局限于少数高资源语言。此外,由于缺乏适当或全面的基准测试,许多低资源语言(例如非洲语言)通常仅在基本的文本分类任务上进行评估。在本文中,我们介绍了IrokoBench——一个人工翻译的基准数据集,涵盖了16种类型多样的低资源非洲语言,包括三个任务:自然语言推理(AfriXNLI)、数学推理(AfriMGSM)和基于多项选择题的知识问答(AfriMMLU)。我们使用IrokoBench在10个开放和四个专有LLMs上评估了零样本、少样本和翻译测试设置(在这些设置中,测试集被翻译成英语)。我们的评估揭示了高资源语言(如英语和法语)与低资源非洲语言之间的显著性能差距。我们观察到开放模型和专有模型之间存在显著的性能差距,其中表现最佳的开放模型Aya-101仅达到了最佳专有模型GPT-4o性能的58%。在评估之前将测试集翻译成英语有助于缩小像LLaMa 3 70B这样以英语为中心的大型模型之间的差距。这些发现表明,需要更多的努力来开发和适应非洲语言的LLMs。
  • 图表
  • 解决问题
    本论文旨在解决当前大语言模型(LLMs)在高资源语言以外的低资源语言(例如非洲语言)中的应用受限的问题,提出了一个涵盖16种非洲语言的人工翻译基准数据集,并对10个开放和4个专有LLMs进行了零样本、少样本和翻译测试的评估。
  • 关键思路
    论文的关键思路是通过引入IrokoBench数据集,对多种低资源非洲语言进行基准测试,并对LLMs在这些语言上的性能进行评估,发现高资源语言(如英语和法语)与低资源非洲语言之间存在显著的性能差距,同时也发现开放LLMs和专有LLMs之间的性能差距较大。
  • 其它亮点
    论文的亮点包括引入了一个新的人工翻译基准数据集,探究了LLMs在非洲语言上的性能表现,发现了高资源语言与低资源非洲语言之间的性能差距,以及开放LLMs和专有LLMs之间的性能差距,同时还进行了零样本、少样本和翻译测试的评估。论文的实验设计详细,使用了多个数据集,但未提供开源代码。未来的研究可以继续探究如何提高LLMs在低资源非洲语言上的性能。
  • 相关研究
    在相关研究方面,最近的一些论文包括《XLM-R: Cross-lingual Language Model Pretraining》和《Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论