中科大 | 使用类相似性进行鲁棒语音识别的域自适应

【论文标题】Domain Adaptation Using Class Similarity for Robust Speech Recognition 【作者团队】Han Zhu, Jiangjiang Zhao, Yuling Ren, Li Wang, Pengyuan Zhang 【发表时间】2020/11/05 【论文链接】https://arxiv.org/pdf/2011.02782v1.pdf 【论文代码】https://github.com/zhu-han/ASR-Adaption-Class-Similarity 【推荐理由】本文提出了一种基于类相似的DNN声学模型自适应方法，在重音和噪声适应任务上，尤其是当源域和目标域高度不匹配时，本文的方案优于使用one-hot标签的微调方案。深度神经网络极大地改善了自动语音识别（ASR）的技术水平。但是只有大量可用的标记数据可用时，这种令人印象深刻的性能提升才能实现。在许多情况下，这些训练数据要么难以收集，要么难以注释。因此，为了解决目标域中标记数据的稀缺性，本文可以利用相关源数据中大量可用的标记数据。但是当出现域不匹配时，例如说话人，口音和环境不匹配，源域和目标域的数据分布之间的差异会增加使用源数据的难度，域自适应通常用于解决此问题。本文提出使用所有源样本上的源模型来计算后验概率。然后对于每个类别，计算由此类样本生成的相应概率的均值向量。实验表明，在重音自适应和噪声自适应任务上，本文的方法始终优于使用one-hot标签的微调。当源域和目标域高度不匹配时，此方法会进一步胜过KL-散度正则化和基于知识蒸馏的自适应。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

中科大 | 使用类相似性进行鲁棒语音识别的域自适应

评论列表

评论