The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants
解决问题:该论文旨在提出一个新的多语言阅读理解数据集Belebele,以便评估文本模型在高、中、低资源语言中的性能。该论文尝试解决的问题是如何评估自然语言处理系统在多种语言上的表现,并探索多语言模型的能力。
关键思路:该论文的关键思路是构建一个多语言的阅读理解数据集Belebele,以便评估自然语言处理系统在多种语言上的表现。相比当前领域的研究状况,该论文的思路在于扩大了语言覆盖范围,提出了一个全新的多语言阅读理解数据集,能够直接比较各语言模型的性能。
其他亮点:该论文的亮点在于提出了一个全新的多语言阅读理解数据集,能够评估自然语言处理系统在多种语言上的表现。实验使用了多种数据集,探索了多语言模型的能力,并提出了一些有启示性的结论。此外,该论文的数据集和代码都已经开源,为后续的研究提供了便利。
相关研究:近期的相关研究包括:1)XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Fine-tuning and Understanding,作者为Liang et al.,来自于华为诺亚方舟实验室;2)XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization,作者为Hu et al.,来自于谷歌研究院;3)Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training,作者为Li et al.,来自于清华大学。
论文摘要:本文介绍了Belebele数据集,这是一个包含122种语言变体的多选阅读理解(MRC)数据集。该数据集显著扩展了自然语言理解(NLU)基准的语言覆盖范围,使得可以在高、中、低资源语言中评估文本模型。每个问题都基于Flores-200数据集中的短篇章,有四个多选答案。这些问题经过精心策划,可以区分具有不同通用语言理解水平的模型。仅英文数据集已经足够具有挑战性,可以挑战最先进的语言模型。由于是完全并行的,因此该数据集可以直接比较所有语言的模型性能。我们使用该数据集评估了多语言掩蔽语言模型(MLM)和大型语言模型(LLM)的能力。我们提供了广泛的结果,并发现尽管英语为中心的LLM具有显着的跨语言转移能力,但在平衡的多语言数据上预训练的较小的MLM仍然能够理解更多的语言。我们还观察到,更大的词汇量和有意识的词汇构建与低资源语言上的更好表现相关。总的来说,Belebele为评估和分析NLP系统的多语言能力开辟了新的途径。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢