Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

2024年02月09日
  • 简介
    数据集是现代人工智能许多突破的基础。自然语言处理(NLP)领域的许多最新成果可以归功于在各种任务上对预训练模型进行微调,使得大型语言模型(LLM)能够响应指令。指令微调(IFT)需要特别构建和注释的数据集。然而,现有的数据集几乎都是英语。在这项工作中,我们的主要目标是通过构建一个跨越65种语言的人工筛选指令遵循数据集来弥合语言差距。我们与来自世界各地的流利说话者合作,收集自然的指令和完成实例。此外,通过模板化和翻译现有数据集,我们创建了迄今为止最广泛的多语言集合,涵盖了114种语言,共计513百万实例。总体而言,我们贡献了四个关键资源:我们开发并开源了Aya注释平台、Aya数据集、Aya集合和Aya评估套件。Aya倡议还作为参与性研究的有价值案例研究,涉及来自119个国家的合作者。我们认为这是未来研究合作的有价值框架,旨在弥合资源差距。
  • 图表
  • 解决问题
    构建一个跨越65种语言的人工智能指令遵循数据集,以填补现有数据集仅限于英语的空白。同时,通过模板和翻译现有数据集,创建包含114种语言的最广泛的多语言集合。
  • 关键思路
    该论文的关键思路是通过与世界各地流利的语言使用者合作,收集自然的指令和完成实例,使用模板和翻译技术构建跨越多种语言的指令遵循数据集。
  • 其它亮点
    该论文提供了Aya注释平台、Aya数据集、Aya集合和Aya评估套件四个关键资源,并且涉及来自119个国家的合作伙伴,是一项有价值的参与性研究案例。实验设计包括使用现有数据集的模板和翻译技术构建多语言集合,并开源了代码。
  • 相关研究
    最近的相关研究包括使用多语言数据集进行自然语言处理的研究,如MUSE和XLM-RoBERTa。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论