MSP-Podcast SER Challenge 2024: L'antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition

Odyssey 2024, Jun 2024, Quebec, France
2024年07月08日
  • 简介
    在这项工作中,我们详细介绍了我们参加2024年MSP-Podcast语音情感识别(SER)挑战赛的提交内容。该挑战分为两个不同的任务:分类情感识别和情感属性预测。我们将精力集中在任务1上,该任务涉及使用MSP-Podcast数据集对八种情感状态进行分类。我们的方法采用了一组模型,每个模型都是独立训练,然后在评分级别上使用支持向量机(SVM)分类器进行融合。这些模型使用了各种训练策略,包括跨不同模态的自监督学习(SSL)微调:仅语音、仅文本和语音和文本相结合的方法。这种联合训练方法旨在增强系统对情感状态的准确分类能力。因此,该系统在开发集上获得了0.35%的F1宏平均值。
  • 图表
  • 解决问题
    该论文旨在解决 MSP-Podcast SER 挑战中的分类情感识别任务,即通过 MSP-Podcast 数据集分类识别 8 种情感状态。
  • 关键思路
    该论文采用了多个模型的集成方法,并使用支持向量机(SVM)分类器在得分级别上进行融合,同时采用自监督学习(SSL)微调策略,跨语音、文本和语音文本组合模态进行训练,以提高情感分类的准确性。
  • 其它亮点
    该论文的亮点包括使用了多个模型的集成方法,采用了自监督学习策略进行跨模态训练,并在 MSP-Podcast 数据集上实现了 F1-macro 为 0.35% 的结果。该论文的实验设计详细,并提供了开源代码。
  • 相关研究
    在情感识别领域的相关研究包括:1)基于深度学习的情感识别方法;2)跨语音和文本模态的情感识别研究;3)集成多个模型进行情感识别的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论