SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

2024年06月14日
  • 简介
    东南亚是一个语言多样性和文化多样性丰富的地区,拥有超过1300种土著语言和6.71亿人口。然而,现有的人工智能模型在文本、图像和音频数据集方面缺乏来自东南亚的充分代表,从而影响了东南亚语言的人工智能模型的质量。由于高质量数据集的稀缺性以及英语训练数据的主导地位,评估东南亚语言的模型是具有挑战性的,这也引发了文化误解的担忧。为了解决这些问题,我们引入了SEACrowd,这是一个协作计划,汇集了一个综合性资源中心,通过提供近1000种东南亚语言的标准语料库,填补了资源缺口。通过我们的SEACrowd基准测试,我们评估了13项任务中36种土著语言的人工智能模型的质量,为当前东南亚人工智能领域提供了有价值的见解。此外,我们提出了促进更大的人工智能进步的策略,以最大化人工智能在东南亚未来的潜在效用和资源平等。
  • 图表
  • 解决问题
    解决东南亚地区人工智能模型数据不足的问题,提高东南亚语言的AI模型质量
  • 关键思路
    通过SEACrowd项目,提供近1000种东南亚语言的标准语料库,评估AI模型在36种东南亚语言上的13个任务的表现,并提出促进AI发展的策略
  • 其它亮点
    SEACrowd项目提供大量标准语料库,评估AI模型在东南亚语言上的表现,为AI发展提供了新的资源。实验中使用了36种东南亚语言上的13个任务,为该领域提供了宝贵的数据。论文提出了一些促进AI发展的策略,如建立更多的数据集和提高语言技术的普及程度等
  • 相关研究
    最近相关的研究包括:1. Multilingual and Cross-Lingual Representations for Low-Resource Languages;2. Learning from Low-Resource, Multi-Dialect Data with a Multilingual Transformer Model;3. A Survey on Low-Resource Neural Machine Translation
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论