Diversifying and Expanding Frequency-Adaptive Convolution Kernels for Sound Event Detection

2024年06月08日
  • 简介
    频率动态卷积(FDY conv)利用频率可变的基础卷积核的组合,获得了在声音事件检测(SED)方面的最先进表现。然而,FDY conv缺乏明确的方法来多样化频率自适应卷积核,可能限制了其性能。此外,基础卷积核的大小是有限的,而时频模式跨越更大的频谱时间范围。因此,我们提出了扩张式频率动态卷积(DFD conv),通过引入不同的扩张大小到基础卷积核中,来多样化和扩展频率自适应卷积核。实验表明,沿着频率维度变化扩张大小的优点,以及对注意力权重方差的分析证明,扩张式基础卷积核得到了有效的多样化。通过使用基于交集的F1分数调整类别中位数滤波器,所提出的DFD-CRNN在多音声检测得分(PSDS)方面优于FDY-CRNN 3.12%。
  • 图表
  • 解决问题
    本文旨在提出一种新的卷积神经网络架构,以改进声音事件检测的性能。
  • 关键思路
    本文提出了一种新的卷积神经网络架构,称为DFD conv,通过引入不同的扩张大小来使频自适应卷积核多样化和扩展,以解决FDY conv中存在的潜在性能限制问题。
  • 其它亮点
    DFD conv通过引入不同的扩张大小来使频自适应卷积核多样化和扩展,提高了声音事件检测的性能。作者使用了类别中位数滤波器和基于交集的F1分数来适应不同的声音事件,并在多个数据集上进行了实验验证。此外,作者还分析了注意力权重方差,证明了扩张基础卷积核的有效多样性。
  • 相关研究
    最近在声音事件检测领域的相关研究包括:'Multi-level Attention Network for Weakly Supervised Audio Classification'、'Attention-Based Models for Audio Tagging: A Survey'和'Large-Scale Weakly Supervised Audio Classification Using Gaussian Mixture Model Based Labeling'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论