SELM: Enhancing Speech Emotion Recognition for Out-of-Domain Scenarios

2024年07月22日
  • 简介
    情感语音识别(SER)传统上被制定为分类任务。然而,情感通常是一个光谱,其分布因情况而异,导致在域外(OOD)表现不佳。我们受到自动语音识别(ASR)的统计公式的启发,并将SER任务制定为生成最可能的文本令牌序列以推断情感。该公式将SER分解为预测由语言模型预测加权的声学模型特征。作为这种方法的一个实例,我们提出了SELM,一种音频条件的语言模型,用于预测不同的情感视图。我们在策划的语音情感语料库上对SELM进行训练,并在三个未在训练中使用的OOD数据集(RAVDESS、CREMAD、IEMOCAP)上进行测试。SELM在RAVDESS和CREMA-D上相对准确率分别提高了17%和7%,显著优于现有的基线技术。此外,SELM可以通过少量注释示例进行少量学习,进一步提高性能。结果突显了我们的SER公式的有效性,特别是在OOD场景中提高性能。
  • 图表
  • 解决问题
    论文试图将语音情感识别(SER)问题转化为生成最可能的文本序列的问题,以提高在Out-of-Domain(OOD)情况下的表现。
  • 关键思路
    论文提出了一种基于语音的语言模型,即SELM,用于预测不同情感视角的情感标签。SELM通过预测语言模型权重来加权预测声学模型特征,从而将SER问题转化为文本生成问题。
  • 其它亮点
    论文使用了一个精心策划的语音情感语料库进行训练,并在三个OOD数据集上进行了测试,证明了SELM的有效性。论文还展示了SELM在少量标注数据的情况下进行Few-Shot Learning的能力。
  • 相关研究
    近期的相关研究包括基于深度学习的SER方法,如基于CNN、LSTM和Transformer的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论