- 简介本文介绍了DCASE 2024挑战赛中数据高效、低复杂度声学场景分类任务及相应的基线系统。该任务延续了之前两届(2022年和2023年)的设置,侧重于记录设备不匹配和低复杂度约束。今年的比赛增加了一个现实世界的问题:参赛者必须为五个场景开发数据高效的系统,这些场景逐渐限制了可用的训练数据。提供的基线系统基于一种高效的、分解的CNN架构,由反向残差块构成,并使用Freq-MixStyle来解决设备不匹配问题。该任务共收到了来自17个团队的37个提交,其中大多数系统的表现都优于基线系统。排名最高的系统在最小和最大子集上的准确率分别达到了54.3%和61.8%,相对于评估集上的基线系统,分别实现了约23%和9%的提升。
- 图表
- 解决问题DCASE 2024挑战中,参赛者需要开发数据高效的系统,用于五种场景的声学场景分类任务。这个任务要求系统在逐步减少的训练数据量下进行分类。
- 关键思路论文提出了一种基于因子化卷积神经网络结构和Freq-MixStyle的声学场景分类方法,以解决设备不匹配和低复杂度限制的问题。
- 其它亮点论文提供了一个高效的基线系统,使用了因子化卷积神经网络结构和Freq-MixStyle来解决设备不匹配问题。实验结果表明,大多数系统都优于基线系统,最佳系统在评估集上的准确率相对于基线系统提高了约23%到9%。论文还列举了一些值得深入研究的工作,如增加数据集的多样性和使用更复杂的神经网络结构。
- 最近在该领域的相关研究包括:'Acoustic Scene Classification with Multi-Resolution CNNs'、'End-to-End Environmental Sound Classification using a 1D Convolutional Neural Network'、'Acoustic Scene Classification using Multi-Task Learning and Different Time-Frequency Representations'等。
沙发等你来抢
去评论
评论
沙发等你来抢