Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation

2024年07月08日
  • 简介
    本文提出了两种新的数据高效方法,用于学习同质化的口吃和老年人说话的说话人级别特征,以便在DNN / TDNN和Conformer ASR模型的测试时间快速适应。这些方法包括:1)说话人级别方差正则化光谱基础嵌入(VR-SBE)特征,利用特殊的正则化项来强制适应中的说话人特征同质化;和2)基于特征的学习隐藏单元贡献(f-LHUC)变换,其取决于VR-SBE特征。在两种语言的四个任务上进行了实验:英语UASpeech和TORGO口吃语音数据集,英语DementiaBank Pitt和粤语JCCOCC MoCA老年人语音语料库。所提出的即时说话人适应技术在测试时间上始终优于基线iVector和xVector适应,统计学上显着降低了字或字符错误率,最高可达5.32%绝对值(18.57%相对值),批处理模式LHUC说话人适应下降2.24%绝对值(9.20%相对值),同时在适应过程中实现实时加速,最高可达xVector的33.6倍。在与当前ASR技术(包括在UASpeech上进行SSL预训练系统)的比较中,证明了所提出的适应技术的有效性,其中我们的最佳系统产生了23.33%的最新WER。分析显示,VR-SBE特征和f-LHUC变换对测试时间中的说话人级别数据数量不敏感。T-SNE可视化显示,它们比基线iVector、xVector和批处理模式LHUC变换具有更强的说话人级别同质性。
  • 图表
  • 解决问题
    论文提出了两种新的数据有效的方法来解决自动语音识别技术在说话困难和老年人的语音上的适应问题,包括数据稀缺和大的说话人级别变异。
  • 关键思路
    论文提出了两种新的方法:VR-SBE特征和f-LHUC转换,用于学习同质的说话困难和老年人说话的说话人级别特征,以实现快速的测试时间适应。这两种方法相对于现有的基线方法具有更好的效果,且在测试时间适应时不受说话人数据量的影响。
  • 其它亮点
    实验涉及四个任务,包括两种语言的四个数据集。论文提出的方法相对于基线方法具有更好的效果,而且在测试时间适应时速度更快。最好的系统在UASpeech上实现了最先进的WER。T-SNE可视化显示,VR-SBE特征和f-LHUC转换比基线方法具有更强的说话人级别同质性。
  • 相关研究
    最近的相关研究包括使用SSL预训练系统的ASR技术。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论