IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages

2024年04月25日
  • 简介
    随着大型语言模型(LLMs)在全球范围内越来越受到采用,LLMs代表世界语言多样性至关重要。印度是一个拥有14亿人口的语言多样性国家。为了促进多语言LLM评估的研究,我们发布了IndicGenBench,这是一个最大的基准,用于评估涵盖13种文字和4种语言家族的29种Indic语言的LLMs在用户界面生成任务上的表现。IndicGenBench由多样化的生成任务组成,例如跨语言摘要,机器翻译和跨语言问答。IndicGenBench通过人工策划扩展了现有的基准测试,首次为许多未被充分代表的Indic语言提供了多向并行评估数据。我们在各种设置下评估了各种专有和开源LLMs,包括GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM和LLaMA在IndicGenBench上的表现。最大的PaLM-2模型在大多数任务中表现最佳,但与英语相比,所有语言都存在显着的性能差距,这表明需要进一步研究以开发更具包容性的多语言语言模型。IndicGenBench发布在www.github.com/google-research-datasets/indic-gen-bench。
  • 图表
  • 解决问题
    IndicGenBench是一个用于评估多语言大型语言模型在印度29种语言中的性能的基准测试数据集。该论文旨在解决多语言大型语言模型在语言多样性方面的问题。
  • 关键思路
    IndicGenBench是一个由人类策划的基准测试数据集,用于评估大型语言模型在印度29种语言中的性能。该数据集包括跨语言摘要、机器翻译和跨语言问答等多种生成任务,并对许多未被代表的印度语言提供了多向并行评估数据,以便更全面地评估多语言大型语言模型的性能。论文评估了许多专有和开源大型语言模型,包括GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM和LLaMA等,结果表明,PaLM-2模型在大多数任务中表现最佳,但与英语相比,在所有语言中都存在显著的性能差距,因此需要进一步研究开发更具包容性的多语言语言模型。
  • 其它亮点
    该论文提出了IndicGenBench,是迄今为止最大的基准测试数据集之一,用于评估大型语言模型在印度29种语言中的性能。该数据集是由人类策划的,包括多种生成任务,并对许多未被代表的印度语言提供了多向并行评估数据。论文还评估了许多专有和开源大型语言模型,并发现PaLM-2模型在大多数任务中表现最佳。此外,该论文还提出了进一步研究开发更具包容性的多语言语言模型的必要性。
  • 相关研究
    最近的相关研究包括ACL 2021会议上的“ELECTRA-UNRELIABLE: Identifying and Mitigating BERT's Unreliability in Low-Resource Languages”和“Improving Low-Resource Named Entity Recognition with Cross-Lingual Pre-training and Language-specific Fine-tuning”等论文。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论