EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark

2024年06月11日
  • 简介
    语音情感识别(SER)是人机交互的重要组成部分,受到工业界和学术界的广泛关注。然而,目前的SER研究领域长期存在以下问题:1)数据集缺乏合理和通用的划分,使得比较不同模型和方法变得困难。2)没有常用基准涵盖大量的语料库和语言供研究人员参考,使得再现成为一种负担。本文提出了EmoBox,一个开箱即用的多语言多语料库语音情感识别工具包,以及一个用于内部语料库和跨语料库设置的基准。对于内部语料库设置,我们精心设计了不同数据集的数据分割。对于跨语料库设置,我们采用基础SER模型emotion2vec来减轻注释错误,并获得一个完全平衡的说话人和情感分布的测试集。基于EmoBox,我们展示了10个预训练语音模型在32个情感数据集上的内部语料库SER结果,涵盖14种语言,以及4个具有完全平衡测试集的跨语料库SER结果。据我们所知,这是跨语言范围和数量规模最大的SER基准。我们希望我们的工具包和基准可以促进社区对SER的研究。
  • 图表
  • 解决问题
    解决问题:本论文提出了一个跨语言、多语料库的语音情感识别工具箱,并提供了一个基准测试集,以解决当前语音情感识别领域存在的数据集划分不合理、基准测试集不全等问题。
  • 关键思路
    关键思路:本论文提出了EmoBox语音情感识别工具箱,使用emotion2vec模型来处理跨语料库测试集中的注释错误,并获得完全平衡的测试集。
  • 其它亮点
    其他亮点:本论文提供了32个情感数据集的10个预训练语音模型的内部语料库情感识别结果,涵盖14种语言,并提供了4个基于完全平衡测试集的跨语料库情感识别结果。该工具箱和基准测试集可以促进社区对语音情感识别的研究。
  • 相关研究
    相关研究:最近的相关研究包括“Speech emotion recognition using deep neural network and extreme learning machine”和“Speech emotion recognition based on deep learning and extreme learning machine”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论