EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios

2024年03月04日
  • 简介
    语音情感识别(SER)的自然数据库很少,通常依赖于分阶段的场景,如电影或电视节目,限制了它们在真实世界环境中的应用。我们开发并公开发布了Emotional Voice Messages(EMOVOME)数据库,其中包括100个西班牙说话者在通讯应用程序中的999条真实对话语音信息,并由专家和非专家注释者对其进行了连续和离散情感标注。我们使用标准的声学特征和基于Transformer的模型评估了演讲者无关的SER模型。我们将结果与参考数据库(包括演讲和引发的语音)进行了比较,并分析了注释者和性别公平性的影响。预训练的UniSpeech-SAT-Large模型在EMOVOME上取得了最高的结果,3类愉悦度和唤起度预测的加权准确率(UA)分别为61.64%和55.57%,比基线模型提高了10%。对于情感类别,获得了42.58%的UA。在预测情感类别方面,EMOVOME的表现低于演讲RAVDESS数据库。而引发的IEMOCAP数据库在预测情感类别方面也优于EMOVOME,而在愉悦度和唤起度方面则获得了类似的结果。EMOVOME的结果因注释者标签而异,当结合专家和非专家注释时,表现更好且更公平。该研究凸显了分阶段和真实生活场景之间的差距,支持进一步发展识别真实情感的技术。
  • 图表
  • 解决问题
    本论文试图解决自然数据库匮乏的问题,提出了一个包含999个语音消息的数据库,用于情感识别。同时,还探讨了不同注释者和性别之间的影响。
  • 关键思路
    论文提出了使用Emotional Voice Messages(EMOVOME)数据库进行情感识别的方法,并使用了一种基于transformer的模型,取得了比基线模型更好的结果。
  • 其它亮点
    论文中提出的EMOVOME数据库是一个真实场景下的语音消息数据库,相比于以往的电影或电视剧情境更具有实际应用价值。此外,论文还探讨了注释者和性别对情感识别的影响,并提出了一种结合专家和非专家注释的方法,提高了模型的效果和公平性。
  • 相关研究
    与本论文相关的研究包括使用RAVDESS和IEMOCAP数据库进行情感识别的研究,以及使用不同特征和模型进行情感识别的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论