Automatic Speech Recognition (ASR) for the Diagnosis of pronunciation of Speech Sound Disorders in Korean children

2024年03月13日
  • 简介
    这项研究提出了一个自动语音识别(ASR)模型,旨在诊断发音障碍儿童的发音问题,以取代临床程序中的手动转录。由于针对通用目的训练的ASR模型主要预测输入语音为实际单词,因此使用一个已知高性能的ASR模型来评估发音障碍儿童的发音是不切实际的。我们对wav2vec 2.0 XLS-R模型进行微调,使其能够识别发音而不是现有单词。该模型使用137名发音不清的儿童的语音数据集进行微调,这些儿童发音73个韩语单词,这些单词被选用作实际临床诊断。该模型对这些单词的发音预测与人类注释的匹配度约为90%。虽然该模型仍需要改进以识别不清晰的发音,但该研究证明了ASR模型可以简化临床领域复杂的发音错误诊断程序。
  • 图表
  • 解决问题
    本论文旨在解决在临床诊断中替代手动转录的自动语音识别(ASR)模型的问题,以诊断儿童语音障碍(SSD)中的发音问题。
  • 关键思路
    本文使用fine-tuned wav2vec 2.0 XLS-R模型来识别儿童发音,而不是像通用目的的ASR模型那样预测输入语音为真实单词。实验结果表明,该模型可以在90%的准确率下匹配人类注释的儿童发音。
  • 其它亮点
    本文使用了137个儿童的语音数据集进行fine-tuned,并选取73个韩语单词进行实际临床诊断。实验结果表明,ASR模型可以简化临床领域中复杂的发音错误诊断程序。然而,该模型仍需要改进以识别不清晰的发音。
  • 相关研究
    最近的相关研究包括使用不同的ASR模型进行发音诊断的研究,如使用基于深度学习的ASR模型进行英语语音障碍的诊断。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论