Sound Event Bounding Boxes

简介

声音事件检测是识别声音并确定其在音频片段中的时间范围（起始/结束时间）的任务。现有系统通常在短时间内预测声音存在的置信度。然后，通过阈值处理产生二进制的帧级别存在决策，单个事件的时间范围由合并连续的正帧确定。在本文中，我们展示了帧级别阈值处理通过与系统的声音存在置信度耦合降低了事件时间范围的预测。我们提出通过引入SEBBs来解耦事件时间范围和置信度的预测，SEBBs将每个声音事件预测格式化为类别类型、时间范围和总体置信度的元组。我们还提出了一种基于变化检测的算法，将传统的帧级别输出转换为SEBBs。我们发现这种算法显著提高了DCASE 2023挑战系统的性能，将最先进水平从0.644提高到0.686 PSDS1。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决声音事件检测中存在的问题，即通过引入SEBBs来解耦声音事件的持续时间和置信度，并提出一种基于变化检测的算法来转换传统的基于帧的输出。
关键思路

本文的关键思路是引入SEBBs来格式化每个声音事件预测，将其转换为类类型、持续时间和整体置信度的元组，从而解耦声音事件的持续时间和置信度。
其它亮点

本文使用DCASE 2023 Challenge数据集进行实验，提出的算法将基于帧的输出转换为SEBBs，从而显著提高了系统的性能，将PSDS1从0.644提高到0.686。本文的方法可以为声音事件检测领域的进一步研究提供新思路。
相关研究

在声音事件检测领域，还有一些相关的研究，例如“Sound event detection using weakly labeled dataset with stacked convolutional and recurrent neural network”和“Multi-level attention network for sound event detection”。

提问交流

提问交流