Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features

简介

本文介绍了利用自动语音识别和自监督学习表示来处理临床语音的巨大潜力，但受限于有限和不平衡的临床数据样本的困难依然存在。这种创新性的方法旨在估计患有受损语音系统的患者的声音质量。实验涉及检查PVQD数据集，该数据集涵盖了英语中各种导致语音系统受损的原因，以及一个专注于帕金森病患者的日本数据集，在进行皮层下深部脑刺激(STN-DBS)手术前后进行评估。在PVQD数据集上的结果显示，预测等级、气息和力量指标方面存在显著相关性(相关系数>0.8)，并且预测结果的准确性非常高(均方误差<0.5)。同时，在STN-DBS的情况下，已经取得了预测患者声音质量的进展。
图表
解决问题

使用自监督学习表示和自动语音识别技术来预测患有语音障碍的患者的声音质量，以解决临床语音处理中数据样本有限和不平衡的问题。
关键思路

使用自监督学习表示和自动语音识别技术来预测患有语音障碍的患者的声音质量，取得了较高的预测准确率。
其它亮点

论文使用了自监督学习表示和自动语音识别技术来预测患有语音障碍的患者的声音质量，并取得了较高的预测准确率。实验涉及了PVQD数据集和一个关注帕金森病患者的日本数据集。论文的方法在预测患者的声音质量方面表现出色，值得进一步研究。
相关研究

最近的相关研究包括：1. 'Automatic speech recognition in dysarthria: a systematic review'；2. 'Deep Learning for Voice Disorders: A Systematic Review'；3. 'Speech analysis using deep learning algorithms: A review'。

Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features

评论