- 简介语音应用需要在嘈杂环境下具有低功耗和稳健性。有效的语音活动检测(VAD)前端可以降低计算需求。脉冲神经网络(SNN)被认为具有生物学可行性和功率效率。然而,基于SNN的VAD尚未实现噪声鲁棒性,并且通常需要大型模型以实现高性能。本文介绍了一种新型的基于SNN的VAD模型,称为sVAD,其具有基于SNN的注意力机制的听觉编码器。特别是,它通过SincNet和1D卷积提供有效的听觉特征表示,并通过注意力机制提高噪声鲁棒性。分类器利用脉冲递归神经网络(sRNN)来利用时间性语音信息。实验结果表明,我们的sVAD实现了显著的噪声鲁棒性,同时保持低功耗和小的占用空间,使其成为现实世界VAD应用的有前途的解决方案。
- 图表
- 解决问题论文旨在提出一种基于脉冲神经网络(SNN)的语音活动检测(VAD)模型,以提高噪声鲁棒性和降低计算能耗和模型规模。
- 关键思路sVAD模型采用SincNet和一维卷积实现有效的听觉特征表示,并通过SNN-based attention机制提高噪声鲁棒性,分类器利用SNN实现对时间信息的利用。
- 其它亮点实验结果表明,sVAD模型在噪声鲁棒性和计算能耗方面都有显著的优势,具有很好的应用前景。论文使用了公开数据集进行实验,并提供了开源代码。
- 最近的相关研究包括:“A Review of Voice Activity Detection Technology”,“A Hybrid Approach to Voice Activity Detection using Deep Neural Networks and Hidden Markov Models”,“A Novel Voice Activity Detection Method Based on Deep Belief Network and Improved Extreme Learning Machine”。
沙发等你来抢
去评论
评论
沙发等你来抢