Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet

简介

本文介绍了一种端到端的深度学习模型，用于将尼泊尔语音转换为文本的自动语音识别（ASR）。该模型在OpenSLR（音频，文本）数据集上进行了训练和测试。大多数音频数据集两端都有静音间隙，这些间隙在数据集预处理期间被剪切，以实现音频帧及其相应文本的更统一的映射。Mel频率倒谱系数（MFCC）被用作音频特征输入模型。该模型使用双向LSTM与ResNet和一维CNN配对，对于迄今为止训练的所有模型（具有LSTM，GRU，CNN和ResNet的神经网络变体），该模型为该数据集产生了最佳结果。这种新颖的模型在训练期间使用连接时序分类（CTC）函数进行损失计算，并使用CTC束搜索解码来预测字符作为尼泊尔文本最可能的序列。在测试数据集上，字符错误率（CER）为17.06％。源代码可在以下网址找到：https://github.com/manishdhakal/ASR-Nepali-using-CNN-BiLSTM-ResNet。
图表
解决问题

本文旨在提出一种针对尼泊尔语音的端到端深度学习模型，用于自动语音识别（ASR）并将其转录为文本。该模型在OpenSLR（音频，文本）数据集上进行了训练和测试。
关键思路

本文提出了一种新颖的模型，使用双向LSTM与ResNet和一维CNN相结合，以在所有已训练的模型中获得最佳结果。该模型使用CTC函数进行损失计算和CTC beam search解码，以将字符预测为尼泊尔文本的最可能序列。
其它亮点

本文使用MFCC作为音频特征，对数据集进行预处理以获得更统一的音频帧和相应文本的映射。在测试数据集上，达到了17.06％的字符错误率（CER）。作者提供了开源代码。
相关研究

在这个领域中，最近的相关研究包括使用深度学习进行语音识别的各种方法，例如使用卷积神经网络（CNN）和长短期记忆网络（LSTM）。

Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet

评论