How good are Large Language Models on African Languages?

简介

最近自然语言处理方面的进展已经导致了大型语言模型的广泛应用。这些模型通过上下文学习，即使在未知的任务和语言上也能够表现良好。此外，它们已被广泛采用作为语言模型服务的商业API，例如GPT-4 API。然而，它们在非洲语言上的表现大多未知。本文在30种非洲语言上进行了三种流行的大型语言模型（mT0、LLaMa 2和GPT-4）的分析，涵盖不同的语言家族和地理区域，对五个任务（新闻主题分类、情感分类、机器翻译、问答和命名实体识别）进行了评估。我们的结果表明，所有大型语言模型在非洲语言上的表现都不佳，与英语等高资源语言相比，在大多数任务上存在较大差距。我们发现，GPT-4在分类任务上的表现平均或令人印象深刻，但在机器翻译等生成任务上的结果非常糟糕。令人惊讶的是，我们发现mT0在跨语言问答方面的整体表现最佳，比最先进的监督模型（即fine-tuned mT5）和GPT-4在非洲语言上表现更好。总体而言，LLaMa 2的表现最差，这是由于其有限的多语言能力和以英语为中心的预训练语料库所致。总的来说，我们的研究呼吁在大型语言模型中充分考虑非洲语言，因为它们越来越受欢迎。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估三种大型语言模型在30种非洲语言上的性能，探究它们在非洲语言上的表现是否优秀。
关键思路

论文对三种大型语言模型在非洲语言上的表现进行了评估，发现它们在非洲语言上的表现普遍较差，相比英语等高资源语言有较大差距。
其它亮点

论文对五个任务在30种非洲语言上的表现进行了评估，发现三种大型语言模型在非洲语言上的表现普遍较差，其中LLaMa 2表现最差。研究发现mT0在跨语言问答方面表现最佳。论文呼吁应该更多地关注非洲语言在大型语言模型中的表现。
相关研究

最近相关研究包括《Cross-lingual Language Model Pretraining》和《Multilingual Denoising Pre-training for Neural Machine Translation》等。

How good are Large Language Models on African Languages?

提问交流

提问交流