1st Place Solution to Odyssey Emotion Recognition Challenge Task1: Tackling Class Imbalance Problem

2024年05月30日
  • 简介
    语音情感识别是一项具有挑战性的分类任务,尤其是在训练和测试数据中情感类型的分布不平衡的情况下。在这种情况下,模型更难学习如何区分少数类别,导致这些类别有时会被忽略或经常被错误分类。先前的研究利用了类别加权损失进行训练,但问题仍然存在,因为它有时会导致少数类别过度拟合或多数类别欠拟合。本文介绍了一个由多个站点团队开发的系统,用于参加Odyssey 2024情感识别挑战赛Track-1。挑战数据具有上述属性,因此所提出的系统旨在解决这些问题,通过在应用类别加权损失时引入聚焦损失进行优化。具体而言,聚焦损失进一步加权为基于先验的类别权重。实验结果表明,将这两种方法结合起来可以带来更好的整体性能,但会牺牲主要类别的性能。该系统还采用了多数表决策略,将7个模型的输出组合起来。这些模型是独立训练的,使用不同的声学特征和损失函数,旨在为不同的数据提供不同的性能特性。因此,这些模型在主要类别和次要类别上显示出不同的性能偏好。集成系统输出在挑战赛中获得了最佳表现,在68个提交中排名第一。它也胜过了我们设定的所有单一模型。在Odyssey 2024情感识别挑战赛任务1数据上,该系统获得了35.69%的宏F1分数和37.32%的准确度。
  • 图表
  • 解决问题
    解决情感语音识别中类别分布不均衡的问题,使得模型能够更好地识别少数类别。
  • 关键思路
    论文提出了一种结合了类别加权损失和焦点损失的优化方法,并采用基于先验的类别权重来进一步加权。同时,使用了一个由7个模型组成的集成系统,采用多数投票策略来获得最终输出。
  • 其它亮点
    论文在Odyssey 2024情感识别挑战赛中取得了最佳表现,并在数据集上获得了35.69%的宏F1得分和37.32%的准确率。同时,论文提供了开源代码和实验数据集。
  • 相关研究
    类别不平衡问题在机器学习中是一个常见的问题。之前的研究已经提出了类别加权损失等方法来解决这个问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论