- 简介语音情感识别(SER)系统在现实环境中经常面临困难,因为环境噪声严重影响了它们的性能。本文探讨了一种新的方法,利用测试环境的先前知识,在嘈杂的条件下最大化SER性能。为了解决这个任务,我们提出了一种基于文本指导的环境感知训练方法,其中SER模型使用被污染的语音样本和它们的噪声描述进行训练。我们使用预训练的文本编码器来提取基于文本的环境嵌入,并在训练和推理过程中将其融合到基于变压器的SER模型中。我们通过使用MSP-Podcast语料库和从Freesound存储库收集的真实附加噪声样本的实验来展示我们方法的有效性。我们的实验表明,由大型语言模型(LLM)处理的基于文本的环境描述产生的表示可以提高SER系统的噪声鲁棒性。此外,我们提出的基于LLM的方法在低信噪比(SNR)条件下比我们的环境不可知基线表现更好。在测试-5dB SNR级别时,我们的方法在唤起、支配和价值方面的表现比最佳基线模型分别提高了31.8%、23.5%和9.5%。
- 图表
- 解决问题本论文旨在解决实际环境下环境噪声对语音情感识别(SER)系统性能的影响问题。
- 关键思路论文提出了一种基于文本引导、环境感知的训练方法,利用预先了解的测试环境来最大化SER在嘈杂条件下的性能。该方法使用预训练的文本编码器提取基于文本的环境嵌入,并在训练和推理期间将其融合到基于Transformer的SER模型中。实验结果表明,使用大型语言模型处理基于文本的环境描述可以改善SER系统的噪声鲁棒性。
- 其它亮点本论文的实验使用了MSP-Podcast语料库和从Freesound存储库中收集的真实附加噪声样本。实验结果表明,相比于环境不可知的基线模型,在低信噪比(SNR)条件下,使用LLM的基于文本的环境描述的方法具有更好的性能。在-5dB SNR水平下进行测试时,该方法的表现比最佳基线模型分别提高了31.8%(唤起)、23.5%(支配)和9.5%(价值)。
- 与本论文相关的研究包括:1. J. Li等人的“Environmental Noise Robust Speech Emotion Recognition Using Attention-Based Convolutional Neural Network”;2. Y. Xu等人的“Multi-Task Learning for Speech Emotion Recognition in Noisy Environments”;3. H. Zhou等人的“Attention-Based Multimodal Fusion for Speech Emotion Recognition in Noisy Environments”。
沙发等你来抢
去评论
评论
沙发等你来抢