Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet

2022 International Conference on Inventive Computation Technologies (ICICT), pp. 515-521
2024年06月25日
  • 简介
    本文介绍了一种端到端的深度学习模型,用于将尼泊尔语音转换为文本的自动语音识别(ASR)。该模型在OpenSLR(音频,文本)数据集上进行了训练和测试。大多数音频数据集两端都有静音间隙,这些间隙在数据集预处理期间被剪切,以实现音频帧及其相应文本的更统一的映射。Mel频率倒谱系数(MFCC)被用作音频特征输入模型。该模型使用双向LSTM与ResNet和一维CNN配对,对于迄今为止训练的所有模型(具有LSTM,GRU,CNN和ResNet的神经网络变体),该模型为该数据集产生了最佳结果。这种新颖的模型在训练期间使用连接时序分类(CTC)函数进行损失计算,并使用CTC束搜索解码来预测字符作为尼泊尔文本最可能的序列。在测试数据集上,字符错误率(CER)为17.06%。源代码可在以下网址找到:https://github.com/manishdhakal/ASR-Nepali-using-CNN-BiLSTM-ResNet。
  • 图表
  • 解决问题
    本文旨在提出一种针对尼泊尔语音的端到端深度学习模型,用于自动语音识别(ASR)并将其转录为文本。该模型在OpenSLR(音频,文本)数据集上进行了训练和测试。
  • 关键思路
    本文提出了一种新颖的模型,使用双向LSTM与ResNet和一维CNN相结合,以在所有已训练的模型中获得最佳结果。该模型使用CTC函数进行损失计算和CTC beam search解码,以将字符预测为尼泊尔文本的最可能序列。
  • 其它亮点
    本文使用MFCC作为音频特征,对数据集进行预处理以获得更统一的音频帧和相应文本的映射。在测试数据集上,达到了17.06%的字符错误率(CER)。作者提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括使用深度学习进行语音识别的各种方法,例如使用卷积神经网络(CNN)和长短期记忆网络(LSTM)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论