Anatomy of Industrial Scale Multilingual ASR

2024年04月15日
  • 简介
    本文介绍了AssemblyAI的工业级自动语音识别(ASR)系统,旨在满足大规模、多语言ASR在各种应用需求下的要求。我们的系统利用包括无监督数据(1250万小时)、有监督数据(18.8万小时)和伪标记数据(160万小时)在内的多样化训练数据集,覆盖了四种语言。我们提供了详细的模型架构描述,包括一个预先使用BEST-RQ进行全文上下文训练的600M参数Conformer编码器和一个与编码器联合微调的RNN-T解码器。我们的广泛评估表明,与更大、更耗费计算资源的模型(如Whisper large和Canary-1B)相比,我们的系统具有竞争力的词错误率(WER)。此外,我们的架构选择带来了几个关键优势,包括改进的代码切换能力、与优化后的Whisper基线相比5倍的推理加速、语音数据中30%的幻觉率降低和与Whisper相比90%的环境噪声降低,以及显著提高的时间戳准确性。在整个工作中,我们采用系统为中心的方法来分析完整的ASR模型的各个方面,以获取对实际运行规模的实用服务有用的实际见解。
  • 图表
  • 解决问题
    本论文旨在解决大规模、多语言自动语音识别(ASR)的需求,提出了一种基于混合数据集和全上下文Conformer编码器的ASR系统。
  • 关键思路
    本论文的关键思路是采用混合数据集训练ASR系统,并使用全上下文Conformer编码器和RNN-T解码器,相比于当前更大、更昂贵的模型,取得了竞争性的词错误率(WER)。
  • 其它亮点
    本论文的亮点包括:1. 采用混合数据集训练ASR系统;2. 使用全上下文Conformer编码器和RNN-T解码器;3. 在代码切换能力、推理速度、幻觉率、环境噪声和时间戳准确性等方面取得了优势;4. 实验使用了多个数据集,包括开源数据集LibriSpeech和Common Voice。
  • 相关研究
    最近在该领域的相关研究包括:1. Whisper large和Canary-1B等更大、更昂贵的模型;2. 基于深度学习的语音识别技术的发展和应用等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论