- 简介本文介绍了一种端到端的深度学习模型,用于将尼泊尔语音转换为文本的自动语音识别(ASR)。该模型在OpenSLR(音频,文本)数据集上进行了训练和测试。大多数音频数据集两端都有静音间隙,这些间隙在数据集预处理期间被剪切,以实现音频帧及其相应文本的更统一的映射。Mel频率倒谱系数(MFCC)被用作音频特征输入模型。该模型使用双向LSTM与ResNet和一维CNN配对,对于迄今为止训练的所有模型(具有LSTM,GRU,CNN和ResNet的神经网络变体),该模型为该数据集产生了最佳结果。这种新颖的模型在训练期间使用连接时序分类(CTC)函数进行损失计算,并使用CTC束搜索解码来预测字符作为尼泊尔文本最可能的序列。在测试数据集上,字符错误率(CER)为17.06%。源代码可在以下网址找到:https://github.com/manishdhakal/ASR-Nepali-using-CNN-BiLSTM-ResNet。
- 图表
- 解决问题本文旨在提出一种针对尼泊尔语音的端到端深度学习模型,用于自动语音识别(ASR)并将其转录为文本。该模型在OpenSLR(音频,文本)数据集上进行了训练和测试。
- 关键思路本文提出了一种新颖的模型,使用双向LSTM与ResNet和一维CNN相结合,以在所有已训练的模型中获得最佳结果。该模型使用CTC函数进行损失计算和CTC beam search解码,以将字符预测为尼泊尔文本的最可能序列。
- 其它亮点本文使用MFCC作为音频特征,对数据集进行预处理以获得更统一的音频帧和相应文本的映射。在测试数据集上,达到了17.06%的字符错误率(CER)。作者提供了开源代码。
- 在这个领域中,最近的相关研究包括使用深度学习进行语音识别的各种方法,例如使用卷积神经网络(CNN)和长短期记忆网络(LSTM)。
沙发等你来抢
去评论
评论
沙发等你来抢