Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

简介

近期大型语言模型的突破主要集中在少数数据丰富的语言上。如何扩大突破成果的使用范围，超越第一类语言？我们的工作引入了Aya，这是一个大规模多语言生成语言模型，可以遵循101种语言的指令，其中超过50%被认为是低资源语言。Aya在大多数任务中表现优于mT0和BLOOMZ，同时涵盖了双倍数量的语言。我们引入了广泛的新评估套件，扩展了跨99种语言的多语言评估的最新技术水平，包括判别和生成任务、人类评估以及模拟胜率，涵盖了保留任务和分布性能。此外，我们进行了详细的研究，包括最佳微调混合组合、数据修剪以及模型的毒性、偏见和安全性。我们在https://hf.co/CohereForAI/aya-101上公开了我们的指令数据集和模型。
图表
解决问题

本论文旨在扩大大语言模型的应用范围，尤其是在低资源语言方面。论文介绍了Aya，一种覆盖101种语言的大规模多语言生成语言模型，并通过广泛的评估套件来证明其性能优于当前的mT0和BLOOMZ模型。
关键思路

本论文的关键思路是使用大规模多语言生成语言模型来解决低资源语言的问题。此外，论文还探讨了最佳微调混合组合、数据修剪以及模型的毒性、偏见和安全性等方面。
其它亮点

值得关注的亮点包括：提出了一种覆盖101种语言的大规模多语言生成语言模型Aya；通过广泛的评估套件证明了Aya的性能优于当前的mT0和BLOOMZ模型；开源了指令数据集和模型。
相关研究

近期的相关研究包括mT5、GShard等。

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

评论