MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection

简介

这篇摘要介绍了声音事件定位和检测(SELD)的技术，使用多通道声音录音来检测和定位声音事件。先前提出的独立事件网络V2(EINV2)在SELD方面已经取得了出色的表现，但仍面临在跨频谱、空间和时间域有效提取特征方面的挑战。本文提出了一个名为多尺度特征融合(MFF)模块的三阶段网络结构，以完全提取跨频谱、空间和时间域的多尺度特征。MFF模块利用并行子网络架构生成多尺度频谱和空间特征，采用TF-Convolution模块提供多尺度时间特征。我们将MFF集成到EINV2中，称之为MFF-EINV2。在2022年和2023年的DCASE挑战任务3数据集上的实验结果显示，我们的MFF-EINV2方法的有效性得到了证明，与已发表的方法相比，其达到了最先进的表现。
图表
解决问题

本论文旨在解决Sound Event Localization and Detection (SELD)中的多通道声音事件检测和定位问题，通过提出一种三阶段网络结构MFF-EINV2来提取多尺度特征，以此改善EINV2在跨频谱、空间和时间域有效提取特征的挑战。
关键思路

论文提出了一种名为MFF的三阶段网络结构，利用并行子网络架构生成多尺度频谱和空间特征，并采用TF-Convolution模块提供多尺度时间特征。将MFF集成到EINV2中，提出了MFF-EINV2，以实现声音事件检测和定位的多尺度特征提取。
其它亮点

论文在2022和2023年DCASE挑战任务3数据集上进行了实验，MFF-EINV2取得了比已发表的方法更好的性能，成为当前最优秀的方法之一。论文的亮点包括提出了一种三阶段网络结构MFF，利用并行子网络和TF-Convolution模块来提取多尺度特征，以及在实验中取得了显著的性能提升。
相关研究

在这个领域中，最近的相关研究包括：1. Sound Event Localization and Detection using CRNN with Attention and Noise-aware Training，2. Multi-Task Learning for Sound Event Localization and Detection using Convolutional Neural Networks，3. Sound Event Detection and Localization using Multi-Task Learning and Weak Labels with Variational Autoencoders等。

MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection

评论