Mixat: A Data Set of Bilingual Emirati-English Speech

2024年05月04日
  • 简介
    本文介绍了Mixat数据集,该数据集包含阿联酋语与英语混合的语音数据。Mixat数据集的开发旨在解决当前语音识别资源在应用于阿联酋语时的不足,尤其是针对经常在当地方言和英语之间混合和转换的双语阿联酋人。该数据集包含15小时的语音,来自于两个公共播客,特别是其中一个是主持人和嘉宾之间的对话形式,因此收集到了正式和自然对话背景下的阿联酋-英语混合语音示例。本文描述了数据收集和注释的过程,并描述了数据集的一些特征和统计信息。此外,我们评估了预训练的阿拉伯语和多语言ASR系统在我们的数据集上的性能,展示了现有模型在这种低资源方言阿拉伯语上的不足,以及在ASR中识别代码转换的额外挑战。该数据集将公开提供供研究使用。
  • 图表
  • 解决问题
    研究如何解决当前语音识别资源在阿联酋语言中的不足,特别是针对双语的阿联酋人,他们经常在当地方言和英语之间混合和切换。
  • 关键思路
    创建一个包含15小时阿联酋语和英语混合的数据集Mixat,以便于研究者可以使用该数据集来改进语音识别模型在此类低资源方言阿拉伯语和混合语言中的性能。
  • 其它亮点
    数据集包含两个公共播客节目中的15小时语音,涵盖正式和自然对话语境中的阿联酋-英语混合。研究描述了数据收集和注释的过程,并评估了预先训练的阿拉伯语和多语言ASR系统在该数据集上的性能。
  • 相关研究
    最近的相关研究包括使用混合语言数据集的语音识别和语音合成研究,如《Code-Switching in Automatic Speech Recognition: A Survey》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论