Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations

简介

最近深度学习和自监督学习（SSL）方面的进展已经极大地提高了语音情感识别（SER）性能，达到了前所未有的水平。然而，获取足够数量的准确标注数据以训练或微调模型仍然是一项昂贵且具有挑战性的任务。本文提出了一种多视角自监督学习预训练技术，可应用于各种语音表示，包括大型语音模型生成的表示，以提高在注释有限的情况下的SER性能。我们基于wav2vec 2.0、光谱和语音学特征进行的实验表明，所提出的框架在极度稀疏的数据注释情况下，可以将SER性能提高高达10%的不加权平均召回率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决语音情感识别（SER）中标注数据不足的问题，提出了一种多视角自监督学习预训练技术，用于改善SER性能。
关键思路

本论文的关键思路是使用多视角自监督学习预训练技术来提高SER性能。这种技术可以应用于各种语音表示，包括大型语音模型生成的表示。
其它亮点

论文使用了wav2vec 2.0、频谱和语音学特征等数据进行实验，并证明了该框架可以在极度稀疏的数据注释情况下提高SER性能。此外，论文还开源了代码。
相关研究

在这个领域中，最近的相关研究包括：《Speech Emotion Recognition Using Transfer Learning with Deep Convolutional Neural Network》、《Speech Emotion Recognition using Deep Learning: A Review》等。

Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations

提问交流

提问交流