作者:Binbin Zhang,Hang Lv,Pengcheng Guo,等

简介:本文介绍WenetSpeech:一个由10000多小时高质量标记语音、2400多小时弱标记语音和约10000小时未标记语音组成的多域汉语语料库,总计共22400多小时。作者从YouTube和Podcast收集数据,这些数据涵盖了各种演讲风格、场景、领域、主题和嘈杂环境。

本文研究提出了一种基于光学字符识别(OCR)的方法,为相应视频标题上的YouTube数据生成音频/文本分段候选,同时使用高质量ASR转录系统为播客数据生成音频/文本对候选。然后,作者提出了一种新的端到端标签错误检测方法来进一步验证和过滤候选标签。作者还提供了三个手动标记的高质量测试集以及用于评估的WenetSpeech——用于训练交叉验证的Dev、从互联网收集的用于匹配测试的test_Net、和从真实会议记录的用于更具挑战性的不匹配测试的test_Meeting。为三个流行的语音识别工具包(即Kaldi、ESPnet和WeNet)提供了使用WenetSpeech训练的基线系统,并将三个测试集上的识别结果作为基准提供。据作者所知,WenetSpeech是目前最大的开放源代码汉语语音语料库,有助于产品级语音识别的研究。

论文下载:https://arxiv.org/pdf/2110.03370.pdf

HUB地址:https://hub.baai.ac.cn/view/10551

内容中包含的图片若涉及版权问题,请及时与我们联系删除