EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark

2024年06月11日
  • 简介
    语音情感识别(SER)是人机交互的重要组成部分,受到工业界和学术界的广泛关注。然而,目前的SER研究领域长期存在以下问题:1)数据集缺乏合理和通用的划分,使得比较不同模型和方法变得困难。2)没有常用基准涵盖大量的语料库和语言供研究人员参考,使得再现成为一种负担。本文提出了EmoBox,一个开箱即用的多语言多语料库语音情感识别工具包,以及一个用于内部语料库和跨语料库设置的基准。对于内部语料库设置,我们精心设计了不同数据集的数据分割。对于跨语料库设置,我们采用基础SER模型emotion2vec来减轻注释错误,并获得一个完全平衡的说话人和情感分布的测试集。基于EmoBox,我们展示了10个预训练语音模型在32个情感数据集上的内部语料库SER结果,涵盖14种语言,以及4个具有完全平衡测试集的跨语料库SER结果。据我们所知,这是跨语言范围和数量规模最大的SER基准。我们希望我们的工具包和基准可以促进社区对SER的研究。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本论文提出了一个跨语言、多语料库的语音情感识别工具箱,并提供了一个基准测试集,以解决当前语音情感识别领域存在的数据集划分不合理、基准测试集不全等问题。
  • 关键思路
    关键思路:本论文提出了EmoBox语音情感识别工具箱,使用emotion2vec模型来处理跨语料库测试集中的注释错误,并获得完全平衡的测试集。
  • 其它亮点
    其他亮点:本论文提供了32个情感数据集的10个预训练语音模型的内部语料库情感识别结果,涵盖14种语言,并提供了4个基于完全平衡测试集的跨语料库情感识别结果。该工具箱和基准测试集可以促进社区对语音情感识别的研究。
  • 相关研究
    相关研究:最近的相关研究包括“Speech emotion recognition using deep neural network and extreme learning machine”和“Speech emotion recognition based on deep learning and extreme learning machine”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问