Open vocabulary keyword spotting through transfer learning from speech synthesis

简介

在开放词汇环境下识别关键词对于个性化智能设备的交互至关重要。以往的开放词汇关键词检测方法依赖于由音频和文本编码器创建的共享嵌入空间。然而，这些方法存在异质性模态表示（即，音频和文本不匹配）的问题。为了解决这个问题，我们提出的框架利用了从预训练的文本到语音（TTS）系统中获得的知识。这种知识转移允许将音频投影的意识融入从文本编码器中得出的文本表示中。我们提出的方法的性能与四个不同数据集上的各种基线方法进行比较。通过评估其在不同单词长度和词汇外（OOV）情况下的表现，评估了我们提出的模型的鲁棒性。此外，通过分析其不同的中间表示，研究了从TTS系统中的转移学习的有效性。实验结果表明，在具有挑战性的LibriPhrase Hard数据集中，我们提出的方法在曲线下面积（AUC）上比交叉模态对应检测器（CMCD）方法显著提高了8.22％，在等误差率（EER）上提高了12.56％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决开放词汇关键词识别中声音-文本不匹配的问题，提出了一种利用预训练的文本到语音系统进行知识迁移的框架。
关键思路

论文提出的框架结合了文本编码器和预训练的文本到语音系统，通过知识迁移来提高文本表示的准确性，从而解决声音-文本不匹配的问题。
其它亮点

论文通过实验验证了所提出的方法在四个数据集上的性能优于其他基线方法，特别是在具有挑战性的LibriPhrase Hard数据集上，AUC和EER分别提高了8.22%和12.56%。此外，论文还探讨了从预训练的文本到语音系统中不同中间表示的转移学习的有效性。
相关研究

在相关研究方面，论文提到了基于共享嵌入空间的声音-文本匹配方法，以及基于交叉模态对应检测器的方法。

Open vocabulary keyword spotting through transfer learning from speech synthesis

提问交流

提问交流