- 简介本文提出了一种有效的噪声语音情感识别(NSER)方法。传统的NSER方法已被证明在缓解人工噪声源(如白噪声)的影响方面是有效的,但由于其复杂性和不确定性,对于真实环境中的非稳态噪声存在局限性。为了克服这一限制,我们引入了一种新的NSER方法,通过采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息。我们首先从ASR模型中获取中间层信息作为情感语音的特征表示,然后将此表示应用于下游的NSER任务。我们的实验结果表明:1)所提出的方法与传统的噪声降噪方法相比实现了更好的NSER性能;2)优于自监督学习方法;3)甚至优于使用ASR转录或噪声语音的基本事实转录的基于文本的方法。
- 图表
- 解决问题本论文提出了一种有效的噪声语音情感识别(NSER)方法。传统的NSER方法已经证明在缓解人造噪声源(例如白噪声)的影响方面是有效的,但由于其复杂性和不确定性,对于现实环境中的非静态噪声存在局限性。本文旨在通过采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器的新方法,消除噪声语音中的非语音信息,从而克服这种限制。
- 关键思路本文的关键思路是使用自动语音识别(ASR)模型作为噪声鲁棒特征提取器,以消除噪声语音中的非语音信息,并将中间层信息作为情感语音的特征表示,然后应用于下游NSER任务。
- 其它亮点本文的实验结果表明:1)所提出的方法相对于传统的噪声降低方法在NSER性能方面表现更好;2)优于自监督学习方法;3)甚至优于使用ASR转录或噪声语音的基本事实转录的基于文本的方法。本文使用了多个数据集进行实验,并开源了代码。本文的方法可为情感识别领域提供新的思路。
- 在最近的相关研究中,一些学者也尝试使用ASR模型来提高NSER性能。例如,论文《End-to-End Speech Emotion Recognition using a 2D Convolutional Neural Network with Self-Attention》中使用了ASR模型进行特征提取。还有一些研究使用了自监督学习和基于文本的方法来解决NSER问题,如论文《Self-Supervised Learning for Noisy Speech Emotion Recognition》和《Emotion Recognition from Noisy Speech Using Text-Based Lexical Features》。
沙发等你来抢
去评论
评论
沙发等你来抢