IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages

2024年03月04日
  • 简介
    我们介绍了INDICVOICES数据集,该数据集包含来自145个印度地区、22种语言的16237位演讲者的自然、自发的语音,共计7348小时,其中朗读占9%,即兴演讲占74%,对话占17%。这7348小时中,已经有1639小时被转录,每种语言的中位数为73小时。通过本文,我们分享了捕捉印度文化、语言和人口多样性的旅程,以创建一种独特的、包容性和代表性的数据集。更具体地说,我们分享了一个开源蓝图,用于大规模数据收集,包括标准化协议、集中式工具、涵盖多个领域和感兴趣主题的引人入胜的问题、提示和对话场景的存储库,质量控制机制,全面的转录指南和转录工具。我们希望这个开源蓝图将作为其他多语言地区数据收集工作的全面入门套件。使用INDICVOICES,我们构建了IndicASR,这是第一个支持印度宪法第8编表列出的所有22种语言的ASR模型。本工作中开发的所有数据、工具、指南、模型和其他材料都将公开发布。
  • 作者讲解
  • 解决问题
    本论文旨在收集和分享一个包含来自印度各地区、各种语言的自然、自发语音的数据集,以及构建支持印度宪法第八编列出的22种语言的ASR模型。
  • 关键思路
    论文提供了一个开源的数据收集蓝图,包括标准化协议、集中式工具、有趣的问题、质量控制机制、全面的转录指南和转录工具。使用这个数据集,论文构建了IndicASR,这是第一个支持印度宪法第八编列出的22种语言的ASR模型。
  • 其它亮点
    论文收集了一份包括来自印度各地区、各种语言的自然、自发语音的数据集,提供了一个开源的数据收集蓝图,构建了IndicASR,这是第一个支持印度宪法第八编列出的22种语言的ASR模型。
  • 相关研究
    近期的相关研究包括:1. "Multilingual ASR for low-resource Indian languages using transfer learning and unsupervised pre-training" 2. "An End-to-End Code-Switching ASR System for Hindi-English Bilinguals" 3. "Code-Switching ASR: A Review of Recent Advances and the AMI Corpus"
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问