Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping

简介

本论文介绍了Conformer-1，这是一个端到端的自动语音识别（ASR）模型，训练数据集包含570k小时的语音音频数据，其中91%来自公开可用的来源。为了实现这一目标，我们在使用强大的Conformer RNN-T基线模型生成未标记的公共数据的伪标签后，进行嘈杂的学生训练。这些伪标签数据的添加使相对单词错误率（WER）显著提高了11.5%和24.3%，分别用于异步和实时模型。此外，由于添加了这些数据，该模型对背景噪声更具鲁棒性。本研究的结果表明，将伪标记的公共可用数据纳入自动语音识别中是提高准确性和噪声鲁棒性的高效策略。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提高自动语音识别（ASR）的准确性和噪声鲁棒性，通过使用大量的公开语音数据进行训练。
关键思路

本文的关键思路是使用强大的Conformer RNN-T基线模型生成伪标签来训练无标签公共数据，并通过Noisy Student Training来实现自我训练。
其它亮点

通过添加伪标签数据，相对词错误率（WER）分别提高了11.5％和24.3％，并且模型对背景噪声更加鲁棒。该模型使用了570k小时的语音数据，并且91％的数据来自公开来源。本文提供了开源代码。
相关研究

最近的相关研究包括使用深度学习技术改进ASR模型的研究，如使用Transformer模型和CNN-LSTM模型。

Conformer-1: Robust ASR via Large-Scale Semisupervised Bootstrapping

提问交流

提问交流