MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection

2024年06月13日
  • 简介
    这篇摘要介绍了声音事件定位和检测(SELD)的技术,使用多通道声音录音来检测和定位声音事件。先前提出的独立事件网络V2(EINV2)在SELD方面已经取得了出色的表现,但仍面临在跨频谱、空间和时间域有效提取特征方面的挑战。本文提出了一个名为多尺度特征融合(MFF)模块的三阶段网络结构,以完全提取跨频谱、空间和时间域的多尺度特征。MFF模块利用并行子网络架构生成多尺度频谱和空间特征,采用TF-Convolution模块提供多尺度时间特征。我们将MFF集成到EINV2中,称之为MFF-EINV2。在2022年和2023年的DCASE挑战任务3数据集上的实验结果显示,我们的MFF-EINV2方法的有效性得到了证明,与已发表的方法相比,其达到了最先进的表现。
  • 图表
  • 解决问题
    本论文旨在解决Sound Event Localization and Detection (SELD)中的多通道声音事件检测和定位问题,通过提出一种三阶段网络结构MFF-EINV2来提取多尺度特征,以此改善EINV2在跨频谱、空间和时间域有效提取特征的挑战。
  • 关键思路
    论文提出了一种名为MFF的三阶段网络结构,利用并行子网络架构生成多尺度频谱和空间特征,并采用TF-Convolution模块提供多尺度时间特征。将MFF集成到EINV2中,提出了MFF-EINV2,以实现声音事件检测和定位的多尺度特征提取。
  • 其它亮点
    论文在2022和2023年DCASE挑战任务3数据集上进行了实验,MFF-EINV2取得了比已发表的方法更好的性能,成为当前最优秀的方法之一。论文的亮点包括提出了一种三阶段网络结构MFF,利用并行子网络和TF-Convolution模块来提取多尺度特征,以及在实验中取得了显著的性能提升。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. Sound Event Localization and Detection using CRNN with Attention and Noise-aware Training,2. Multi-Task Learning for Sound Event Localization and Detection using Convolutional Neural Networks,3. Sound Event Detection and Localization using Multi-Task Learning and Weak Labels with Variational Autoencoders等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论