Voice Disorder Analysis: a Transformer-based Approach

2024年06月20日
  • 简介
    声音障碍是明显影响患者生活质量的病理问题。然而,由于病态声音数据的短缺和用于诊断的录音类型的多样性,这些病理问题的非侵入式自动化诊断仍未得到充分探索。本文提出了一种新颖的解决方案,采用直接在原始声音信号上工作的转换器,并通过合成数据生成和数据增强来解决数据短缺问题。此外,我们同时考虑了许多录音类型,例如句子朗读和持续元音发射,通过使用专家混合集合来对齐不同数据类型上的预测结果。实验结果在公共和私人数据集上获得,表明我们的解决方案在障碍检测和分类任务中的有效性,并且在现有方法上有很大的改进。
  • 图表
  • 解决问题
    研究如何使用非侵入式自动化诊断声音疾病,解决由于声音数据短缺和不同类型的记录方式导致的诊断困难问题。
  • 关键思路
    采用transformers直接处理原始声音信号,并通过合成数据生成和数据增强来解决数据短缺问题。同时考虑不同类型的记录方式,使用Mixture of Expert集成来对不同数据类型的预测进行对齐。
  • 其它亮点
    论文在公共和私人数据集上进行了实验,结果表明所提出的解决方案在声音障碍检测和分类任务中的有效性,并且明显优于现有方法。值得关注的是,论文使用了合成数据生成和数据增强技术,以及Mixture of Expert集成方法。
  • 相关研究
    最近的相关研究包括:1)基于深度学习的声音障碍检测;2)使用传统机器学习方法的声音障碍分类;3)基于声学特征的声音疾病诊断。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论