CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting

2024年06月12日
  • 简介
    本文介绍了一种新的流式开放词汇关键词检测(KWS)方法,采用基于文本的关键词注册。对于每个输入帧,该方法使用连接主义时间分类(CTC)找到以该帧结尾的最优对齐,并聚合帧级声学嵌入(AE)以获得更高级别(即字符、单词或短语)的AE,该AE与目标关键词文本的文本嵌入(TE)对齐。之后,我们计算聚合AE和TE之间的相似度。据我们所知,这是首次尝试动态地在运行时对齐音频和关键词文本以获得KWS的联合音频文本嵌入。尽管以流式方式操作,我们的方法在LibriPhrase数据集上实现了竞争性能,与非流式方法相比,仅使用了155K模型参数和具有时间复杂度O(U)的解码算法,其中U是推理时目标关键词的长度。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提出一种新的方法,即基于文本的关键词注册的流式开放词汇关键词检测(KWS)方法。这个方法的目标是实现对音频流的实时KWS。
  • 关键思路
    论文提出了一种基于CTC的方法,通过对每个输入帧进行最优对齐,使用帧级声学嵌入(AE)进行高级别(即字符、单词或短语)AE的聚合,以便与目标关键字文本的文本嵌入(TE)进行对齐。该方法实现了动态对齐音频和关键字文本,以获得KWS的联合音频文本嵌入。
  • 其它亮点
    该方法在LibriPhrase数据集上取得了竞争性的性能,仅使用了155K模型参数和一个具有时间复杂度O(U)的解码算法。实验结果表明,该方法相比当前领域的研究有着更好的性能。论文提供了开源代码。
  • 相关研究
    最近的相关研究包括使用深度学习技术进行KWS的研究,如基于卷积神经网络(CNN)和循环神经网络(RNN)的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问