- 简介最近深度学习和自监督学习(SSL)方面的进展已经极大地提高了语音情感识别(SER)性能,达到了前所未有的水平。然而,获取足够数量的准确标注数据以训练或微调模型仍然是一项昂贵且具有挑战性的任务。本文提出了一种多视角自监督学习预训练技术,可应用于各种语音表示,包括大型语音模型生成的表示,以提高在注释有限的情况下的SER性能。我们基于wav2vec 2.0、光谱和语音学特征进行的实验表明,所提出的框架在极度稀疏的数据注释情况下,可以将SER性能提高高达10%的不加权平均召回率。
-
- 图表
- 解决问题本论文旨在解决语音情感识别(SER)中标注数据不足的问题,提出了一种多视角自监督学习预训练技术,用于改善SER性能。
- 关键思路本论文的关键思路是使用多视角自监督学习预训练技术来提高SER性能。这种技术可以应用于各种语音表示,包括大型语音模型生成的表示。
- 其它亮点论文使用了wav2vec 2.0、频谱和语音学特征等数据进行实验,并证明了该框架可以在极度稀疏的数据注释情况下提高SER性能。此外,论文还开源了代码。
- 在这个领域中,最近的相关研究包括:《Speech Emotion Recognition Using Transfer Learning with Deep Convolutional Neural Network》、《Speech Emotion Recognition using Deep Learning: A Review》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流