- 简介本文介绍了一种多语言的音视频语音识别模型,该模型采用了人类利用唇形运动的视觉线索在恶劣听力条件下识别语音的方法,以实现在嘈杂环境下的鲁棒语音识别。该模型采用了最近提出的快速Conformer模型,使用新颖的混合CTC / RNN-T架构处理音频和视觉模态,并增加了六种不同语言的音视频训练数据,生成未标记的多语言数据集(VoxCeleb2和AVSpeech)的自动转录。该模型在LRS3数据集上实现了新的最佳表现,WER为0.8%。在最近推出的MuAViC基准测试中,与原始基准相比,我们的模型的平均WER绝对降低了11.9%。最后,我们演示了该模型在测试时执行音频、视觉和音视频语音识别的能力。
- 图表
- 解决问题本论文试图通过Audio-Visual Speech Recognition模型解决在嘈杂环境下的语音识别问题,并尝试提高多语言环境下的性能。
- 关键思路本文提出了一种使用Fast Conformer模型处理音频和视频模态的新型混合CTC/RNN-T架构,并增加了语音和视频训练数据,使用自动生成的转录文本来提高性能。
- 其它亮点实验结果表明,该模型在LRS3数据集上取得了新的最优性能,WER为0.8%。在最近引入的MuAViC基准测试中,与原始基线相比,模型的绝对平均-WER减少了11.9%。论文提出的模型还能够在测试时进行纯音频、纯视频和音视频语音识别。
- 最近的相关研究包括“Audio-Visual Speech Recognition Using Multimodal Deep Convolutional Neural Networks”和“Visual Speech Recognition with Hybrid CTC/Attention Models”。
沙发等你来抢
去评论
评论
沙发等你来抢