【论文标题】Domain Adaptation Using Class Similarity for Robust Speech Recognition 【作者团队】Han Zhu, Jiangjiang Zhao, Yuling Ren, Li Wang, Pengyuan Zhang 【发表时间】2020/11/05 【论文链接】https://arxiv.org/pdf/2011.02782v1.pdf 【论文代码】https://github.com/zhu-han/ASR-Adaption-Class-Similarity 【推荐理由】 本文提出了一种基于类相似的DNN声学模型自适应方法,在重音和噪声适应任务上,尤其是当源域和目标域高度不匹配时,本文的方案优于使用one-hot标签的微调方案。 深度神经网络极大地改善了自动语音识别(ASR)的技术水平。但是只有大量可用的标记数据可用时,这种令人印象深刻的性能提升才能实现。在许多情况下,这些训练数据要么难以收集,要么难以注释。因此,为了解决目标域中标记数据的稀缺性,本文可以利用相关源数据中大量可用的标记数据。但是当出现域不匹配时,例如说话人,口音和环境不匹配,源域和目标域的数据分布之间的差异会增加使用源数据的难度,域自适应通常用于解决此问题。本文提出使用所有源样本上的源模型来计算后验概率。 然后对于每个类别,计算由此类样本生成的相应概率的均值向量。实验表明,在重音自适应和噪声自适应任务上,本文的方法始终优于使用one-hot标签的微调。当源域和目标域高度不匹配时,此方法会进一步胜过KL-散度正则化和基于知识蒸馏的自适应。

内容中包含的图片若涉及版权问题,请及时与我们联系删除