- 简介本文介绍了一种新的去噪语言模型(Denoising LM,DLM),它是一种经过大量合成数据训练的、具有缩放误差修正模型的语言模型,旨在提高自动语音识别(ASR)系统的性能。传统的语言模型虽然能够提高ASR系统的性能,但不能纠正ASR系统的错误。错误修正模型被设计来修正ASR的错误,但由于缺乏监督训练数据,它们在改进ASR性能方面的表现并不理想。DLM使用文本转语音(TTS)系统合成音频,将其输入ASR系统生成嘈杂的假设,然后将这些假设与原始文本配对,以训练DLM。DLM具有四个关键要素:(i)放大模型和数据;(ii)使用多说话人TTS系统;(iii)结合多种噪声增强策略;(iv)新的解码技术。在Librispeech上,使用Transformer-CTC ASR,DLM在“test-clean”上实现了1.5%的词错误率(WER),在“test-other”上实现了3.3%的WER,这些结果是目前在不使用外部音频数据的情况下报告的最佳数据,并且甚至与使用外部音频数据的自监督方法相匹配。此外,单个DLM适用于不同的ASR,大大超越了基于传统语言模型的波束搜索重排的性能。这些结果表明,经过适当研究的错误修正模型有可能取代传统的语言模型,为ASR系统的新的精度水平奠定基础。
- 图表
- 解决问题论文旨在解决语音识别中的错误纠正问题,尝试使用大量合成数据训练 Denoising LM (DLM),并取得新的最佳 ASR 性能。
- 关键思路DLM 是一种基于合成数据训练的错误纠正模型,使用多个说话人 TTS 系统、多种噪声增强策略和新的解码技术,能够显著提高语音识别准确率。
- 其它亮点实验结果表明,DLM 在 Librispeech 数据集的测试集上取得了最佳的 ASR 性能(1.5% WER 和 3.3% WER),甚至与使用外部音频数据的自监督方法相当。此外,DLM 可以适用于不同的 ASR 系统,并且大大超越传统的基于语言模型的 beam-search rescoring。论文开源了代码和数据集。
- 与此相关的研究包括使用外部音频数据的自监督方法,以及传统的基于语言模型的 beam-search rescoring。
沙发等你来抢
去评论
评论
沙发等你来抢