Few-Shot Bioacoustic Event Detection with Frame-Level Embedding Learning System

2024年07月14日
  • 简介
    本技术报告介绍了我们针对DCASE2024挑战赛中的少样本生物声事件检测(任务5)所设计的基于帧级嵌入学习的系统。在这项工作中,我们采用了对输入音频进行特征提取的log-mel和PCEN方法,Netmamba编码器作为信息交互网络,并采用数据增强策略来提高训练模型的泛化能力,以及多种后处理方法。我们的最终系统取得了56.4%的F-measure得分,在Detection and Classification of Acoustic Scenes and Events Challenge 2024的少样本生物声事件检测类别中排名第二。
  • 图表
  • 解决问题
    本论文旨在解决DCASE2024挑战赛中的few-shot生物声事件检测问题,通过学习帧级嵌入来实现。
  • 关键思路
    本论文采用log-mel和PCEN进行特征提取,使用Netmamba编码器作为信息交互网络,并采用数据增强策略来提高模型的泛化能力,同时采用多种后处理方法。最终系统取得了56.4%的F-measure得分,获得了DCASE2024挑战赛few-shot生物声事件检测类别的第二名。
  • 其它亮点
    实验结果表明,本论文所提出的方法在few-shot生物声事件检测问题上取得了很好的效果。论文使用了数据增强策略和多种后处理方法来提高模型的性能。此外,论文还使用了log-mel和PCEN等特征提取方法,这些方法在音频处理领域中被广泛使用。该论文的代码已经开源,可以供其他研究者使用。值得进一步研究的方向包括如何进一步提高模型的性能,以及如何将该方法应用于其他领域。
  • 相关研究
    在该领域的相关研究中,最近的一些研究包括:“Few-shot learning for acoustic event detection using meta-learning with dynamic adaptation”和“Few-shot learning for sound event detection using deep neural networks with hierarchical softmax”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论