- 简介语音情感识别是一项具有挑战性的分类任务,尤其是在训练和测试数据中情感类型的分布不平衡的情况下。在这种情况下,模型更难学习如何区分少数类别,导致这些类别有时会被忽略或经常被错误分类。先前的研究利用了类别加权损失进行训练,但问题仍然存在,因为它有时会导致少数类别过度拟合或多数类别欠拟合。本文介绍了一个由多个站点团队开发的系统,用于参加Odyssey 2024情感识别挑战赛Track-1。挑战数据具有上述属性,因此所提出的系统旨在解决这些问题,通过在应用类别加权损失时引入聚焦损失进行优化。具体而言,聚焦损失进一步加权为基于先验的类别权重。实验结果表明,将这两种方法结合起来可以带来更好的整体性能,但会牺牲主要类别的性能。该系统还采用了多数表决策略,将7个模型的输出组合起来。这些模型是独立训练的,使用不同的声学特征和损失函数,旨在为不同的数据提供不同的性能特性。因此,这些模型在主要类别和次要类别上显示出不同的性能偏好。集成系统输出在挑战赛中获得了最佳表现,在68个提交中排名第一。它也胜过了我们设定的所有单一模型。在Odyssey 2024情感识别挑战赛任务1数据上,该系统获得了35.69%的宏F1分数和37.32%的准确度。
- 图表
- 解决问题解决情感语音识别中类别分布不均衡的问题,使得模型能够更好地识别少数类别。
- 关键思路论文提出了一种结合了类别加权损失和焦点损失的优化方法,并采用基于先验的类别权重来进一步加权。同时,使用了一个由7个模型组成的集成系统,采用多数投票策略来获得最终输出。
- 其它亮点论文在Odyssey 2024情感识别挑战赛中取得了最佳表现,并在数据集上获得了35.69%的宏F1得分和37.32%的准确率。同时,论文提供了开源代码和实验数据集。
- 类别不平衡问题在机器学习中是一个常见的问题。之前的研究已经提出了类别加权损失等方法来解决这个问题。
沙发等你来抢
去评论
评论
沙发等你来抢