MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research

2024年06月26日
  • 简介
    最近,以ChatGPT为代表的多语言人工智能助手受到了广泛关注。作为人机交互的重要门户,多语言自动语音识别(ASR)也引起了人们的极大关注,如Whisper系统所证明的那样。然而,训练数据的专有性质阻碍了研究人员研究多语言ASR的努力。本文介绍了MSR-86K,这是一个不断发展的大规模多语言语音识别语料库,它源自于YouTube上公开可访问的视频,包括15种语言和总计86300小时的转录ASR数据。我们还介绍了如何使用MSR-86K语料库和其他开源语料库来训练一个强大的多语言ASR模型,该模型与Whisper相竞争。MSR-86K将在HuggingFace上公开发布,我们相信这样一个大型语料库将为多语言ASR的研究开辟新的途径。
  • 图表
  • 解决问题
    该论文旨在解决多语言自动语音识别中数据不足的问题,提出了一个大规模的多语言语音数据集,以便于研究人员进行研究。
  • 关键思路
    该论文的关键思路是使用公开可用的YouTube视频数据集,建立一个包含15种语言、共计86,300小时转录ASR数据的大规模多语言语音数据集MSR-86K,以此训练一个竞争力强的多语言自动语音识别模型。
  • 其它亮点
    该论文的亮点包括使用公开可用的数据集建立大规模多语言语音数据集,提出了一种使用MSR-86K数据集和其他开源数据集训练多语言自动语音识别模型的方法,并在实验中取得了不错的成果。该数据集将在HuggingFace上公开发布,为多语言自动语音识别研究开辟了新的道路。
  • 相关研究
    在该领域的相关研究包括基于深度学习的自动语音识别模型的研究,以及其他大规模语音数据集的构建研究,如CommonVoice、LibriSpeech等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论