- 简介声音事件检测是识别声音并确定其在音频片段中的时间范围(起始/结束时间)的任务。现有系统通常在短时间内预测声音存在的置信度。然后,通过阈值处理产生二进制的帧级别存在决策,单个事件的时间范围由合并连续的正帧确定。在本文中,我们展示了帧级别阈值处理通过与系统的声音存在置信度耦合降低了事件时间范围的预测。我们提出通过引入SEBBs来解耦事件时间范围和置信度的预测,SEBBs将每个声音事件预测格式化为类别类型、时间范围和总体置信度的元组。我们还提出了一种基于变化检测的算法,将传统的帧级别输出转换为SEBBs。我们发现这种算法显著提高了DCASE 2023挑战系统的性能,将最先进水平从0.644提高到0.686 PSDS1。
-
- 图表
- 解决问题本文旨在解决声音事件检测中存在的问题,即通过引入SEBBs来解耦声音事件的持续时间和置信度,并提出一种基于变化检测的算法来转换传统的基于帧的输出。
- 关键思路本文的关键思路是引入SEBBs来格式化每个声音事件预测,将其转换为类类型、持续时间和整体置信度的元组,从而解耦声音事件的持续时间和置信度。
- 其它亮点本文使用DCASE 2023 Challenge数据集进行实验,提出的算法将基于帧的输出转换为SEBBs,从而显著提高了系统的性能,将PSDS1从0.644提高到0.686。本文的方法可以为声音事件检测领域的进一步研究提供新思路。
- 在声音事件检测领域,还有一些相关的研究,例如“Sound event detection using weakly labeled dataset with stacked convolutional and recurrent neural network”和“Multi-level attention network for sound event detection”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流