- 简介本文介绍了口吃是一种常见的语音障碍,由于语音产生的不规则中断而引起,影响全球超过7000万人。标准自动语音处理工具不考虑语音疾病,因此当输入口吃的语音时,无法生成有意义的结果。自动检测口吃是建立高效、上下文感知的语音处理系统的重要步骤。虽然以前的方法探索了统计和神经方法用于口吃检测,但所有这些方法都是单模态的。本文提出了MMSD-Net,这是第一个用于口吃检测的多模态神经框架。实验和结果表明,将视觉信号纳入检测中,可以显著帮助口吃检测,我们的模型在F1分数上相对于现有最先进的单模态方法提高了2-17%。
- 图表
- 解决问题本篇论文旨在解决语音障碍者在自动语音处理中遇到的问题,提出了一种多模态神经网络框架来检测口吃,通过视觉信号的引入,取得了比现有单模态方法更好的效果。
- 关键思路本文提出了一种多模态神经网络框架,通过结合语音和视觉信号来检测口吃。相比现有单模态方法,多模态方法在检测口吃方面取得了更好的效果。
- 其它亮点本文通过实验验证了多模态方法的有效性,相比现有单模态方法,多模态方法在检测口吃方面取得了2-17%不等的F1-score提升。本文使用了公开数据集,并提供了开源代码。
- 最近的相关研究包括基于统计和神经网络的单模态方法,但都没有考虑到语音障碍的影响。
沙发等你来抢
去评论

评论
沙发等你来抢