- 简介这篇摘要介绍了声音事件定位和检测(SELD)的技术,使用多通道声音录音来检测和定位声音事件。先前提出的独立事件网络V2(EINV2)在SELD方面已经取得了出色的表现,但仍面临在跨频谱、空间和时间域有效提取特征方面的挑战。本文提出了一个名为多尺度特征融合(MFF)模块的三阶段网络结构,以完全提取跨频谱、空间和时间域的多尺度特征。MFF模块利用并行子网络架构生成多尺度频谱和空间特征,采用TF-Convolution模块提供多尺度时间特征。我们将MFF集成到EINV2中,称之为MFF-EINV2。在2022年和2023年的DCASE挑战任务3数据集上的实验结果显示,我们的MFF-EINV2方法的有效性得到了证明,与已发表的方法相比,其达到了最先进的表现。
- 图表
- 解决问题本论文旨在解决Sound Event Localization and Detection (SELD)中的多通道声音事件检测和定位问题,通过提出一种三阶段网络结构MFF-EINV2来提取多尺度特征,以此改善EINV2在跨频谱、空间和时间域有效提取特征的挑战。
- 关键思路论文提出了一种名为MFF的三阶段网络结构,利用并行子网络架构生成多尺度频谱和空间特征,并采用TF-Convolution模块提供多尺度时间特征。将MFF集成到EINV2中,提出了MFF-EINV2,以实现声音事件检测和定位的多尺度特征提取。
- 其它亮点论文在2022和2023年DCASE挑战任务3数据集上进行了实验,MFF-EINV2取得了比已发表的方法更好的性能,成为当前最优秀的方法之一。论文的亮点包括提出了一种三阶段网络结构MFF,利用并行子网络和TF-Convolution模块来提取多尺度特征,以及在实验中取得了显著的性能提升。
- 在这个领域中,最近的相关研究包括:1. Sound Event Localization and Detection using CRNN with Attention and Noise-aware Training,2. Multi-Task Learning for Sound Event Localization and Detection using Convolutional Neural Networks,3. Sound Event Detection and Localization using Multi-Task Learning and Weak Labels with Variational Autoencoders等。
沙发等你来抢
去评论
评论
沙发等你来抢