Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition

简介

本文探索了一系列方法，将领域微调的自监督学习（SSL）预训练模型及其特征集成到TDNN和Conformer ASR系统中，用于认识发育不良和老年人的语音识别。这些方法包括：a）标准声学前端和领域微调SSL语音表示之间的输入特征融合；b）帧级联合解码，分别使用仅使用标准声学特征和使用额外的领域微调SSL特征进行训练的TDNN系统之间进行；c）多次通过解码，涉及对TDNN / Conformer系统输出进行重新评分，使用领域微调预训练ASR模型。此外，微调的SSL语音特征用于声学到口腔运动的反演，构建多模态ASR系统。在四个任务上进行了实验：英语UASpeech和TORGO发育不良语音语料库；英语DementiaBank Pitt和粤语JCCOCC MoCA老年人语音数据集。将领域适应的HuBERT、wav2vec2-conformer或多语言XLSR模型及其特征集成到TDNN系统中，这些系统的表现均优于独立的微调SSL预训练模型。这些系统在四个任务中分别产生了统计学上显著的WER或CER降低，降低幅度分别为6.53％、1.90％、2.04％和7.97％绝对值（相对值分别为24.10％、23.84％、10.14％和31.39％）。在DementiaBank Pitt老年人语音识别输出中，还获得了阿尔茨海默病检测准确性的一致提高。
图表
解决问题

本文旨在探索将领域自适应的自监督学习预训练模型和其特征集成到TDNN和Conformer ASR系统中，以应用于语音识别任务中的口吃和老年人的语音。
关键思路

本文提出了三种方法来将领域自适应的自监督学习预训练模型和其特征集成到TDNN和Conformer ASR系统中，以提高在口吃和老年人的语音识别任务中的性能。
其它亮点

本文的实验结果表明，将领域自适应的自监督学习预训练模型和其特征集成到TDNN和Conformer ASR系统中，可以显著提高在口吃和老年人的语音识别任务中的性能。实验使用了四个数据集，并且取得了一定的成果。
相关研究

最近的相关研究包括：《Self-Supervised Speech Recognition with Prototypical Contrastive Learning》、《Unsupervised Learning of Speaker Identification and Verification with Self-supervision》等。

Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition

评论