CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting

向作者提问

NEW

简介

本文介绍了一种新的流式开放词汇关键词检测（KWS）方法，采用基于文本的关键词注册。对于每个输入帧，该方法使用连接主义时间分类（CTC）找到以该帧结尾的最优对齐，并聚合帧级声学嵌入（AE）以获得更高级别（即字符、单词或短语）的AE，该AE与目标关键词文本的文本嵌入（TE）对齐。之后，我们计算聚合AE和TE之间的相似度。据我们所知，这是首次尝试动态地在运行时对齐音频和关键词文本以获得KWS的联合音频文本嵌入。尽管以流式方式操作，我们的方法在LibriPhrase数据集上实现了竞争性能，与非流式方法相比，仅使用了155K模型参数和具有时间复杂度O（U）的解码算法，其中U是推理时目标关键词的长度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种新的方法，即基于文本的关键词注册的流式开放词汇关键词检测（KWS）方法。这个方法的目标是实现对音频流的实时KWS。
关键思路

论文提出了一种基于CTC的方法，通过对每个输入帧进行最优对齐，使用帧级声学嵌入（AE）进行高级别（即字符、单词或短语）AE的聚合，以便与目标关键字文本的文本嵌入（TE）进行对齐。该方法实现了动态对齐音频和关键字文本，以获得KWS的联合音频文本嵌入。
其它亮点

该方法在LibriPhrase数据集上取得了竞争性的性能，仅使用了155K模型参数和一个具有时间复杂度O（U）的解码算法。实验结果表明，该方法相比当前领域的研究有着更好的性能。论文提供了开源代码。
相关研究

最近的相关研究包括使用深度学习技术进行KWS的研究，如基于卷积神经网络（CNN）和循环神经网络（RNN）的方法。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问