- 简介本技术报告介绍了我们针对DCASE2024挑战赛中的少样本生物声事件检测(任务5)所设计的基于帧级嵌入学习的系统。在这项工作中,我们采用了对输入音频进行特征提取的log-mel和PCEN方法,Netmamba编码器作为信息交互网络,并采用数据增强策略来提高训练模型的泛化能力,以及多种后处理方法。我们的最终系统取得了56.4%的F-measure得分,在Detection and Classification of Acoustic Scenes and Events Challenge 2024的少样本生物声事件检测类别中排名第二。
- 图表
- 解决问题本论文旨在解决DCASE2024挑战赛中的few-shot生物声事件检测问题,通过学习帧级嵌入来实现。
- 关键思路本论文采用log-mel和PCEN进行特征提取,使用Netmamba编码器作为信息交互网络,并采用数据增强策略来提高模型的泛化能力,同时采用多种后处理方法。最终系统取得了56.4%的F-measure得分,获得了DCASE2024挑战赛few-shot生物声事件检测类别的第二名。
- 其它亮点实验结果表明,本论文所提出的方法在few-shot生物声事件检测问题上取得了很好的效果。论文使用了数据增强策略和多种后处理方法来提高模型的性能。此外,论文还使用了log-mel和PCEN等特征提取方法,这些方法在音频处理领域中被广泛使用。该论文的代码已经开源,可以供其他研究者使用。值得进一步研究的方向包括如何进一步提高模型的性能,以及如何将该方法应用于其他领域。
- 在该领域的相关研究中,最近的一些研究包括:“Few-shot learning for acoustic event detection using meta-learning with dynamic adaptation”和“Few-shot learning for sound event detection using deep neural networks with hierarchical softmax”。
沙发等你来抢
去评论
评论
沙发等你来抢