DiffSED: Sound Event Detection with Denoising Diffusion

解决问题:本篇论文旨在解决声音事件检测(SED)问题,即在给定的音频样本中,预测所有感兴趣事件的时间边界和类别标签。与现有的方法从判别学习角度考虑SED问题不同,本文采用生成学习角度重新构建SED问题。

关键思路:本文的关键思路是采用噪声扩散过程中的噪声提议生成准确的事件边界。在训练期间,模型学习通过在Transformer解码器框架中将噪声潜在查询转换为地面实况版本来逆转噪声过程。这样做使得模型能够在推理过程中从甚至嘈杂的查询中生成准确的事件边界。相比当前领域的研究状况,本文的思路具有新意。

其他亮点:本文的实验使用了Urban-SED和EPIC-Sounds数据集,实验结果表明,本文的模型在训练中收敛速度快40%以上,且表现显著优于现有的替代方案。本文的代码已经开源。

关于作者:Swapnil Bhosale、Sauradip Nag、Diptesh Kanojia、Jiankang Deng和Xiatian Zhu是本文的主要作者。他们分别来自香港中文大学、印度理工学院和腾讯。Swapnil Bhosale之前的代表作包括“Learning to Localize Sound Source in Visual Scenes”(ICCV 2019);Sauradip Nag之前的代表作包括“Context-Aware Self-Attention Networks”(CVPR 2019);Diptesh Kanojia之前的代表作包括“Deep Variational Bayes Filters: Unsupervised Learning of State Space Models from Raw Data”(ICLR 2018);Jiankang Deng之前的代表作包括“Deep Structural Ranking for Image Set Classification”(CVPR 2018);Xiatian Zhu之前的代表作包括“Learning to Track: Online Multi-Object Tracking by Decision Making”(CVPR 2018)。

相关研究:近期其他相关的研究包括:“Sound Event Detection using Weakly Labeled Dataset with Multi-Modal Transformer”(作者:Zhenyu Tang,机构:南京大学);“Attention-Based Multi-Modal Fusion for Sound Event Detection”(作者:Yu-An Chung,机构:台湾大学)等。

论文摘要:DiffSED:使用去噪扩散的声音事件检测 Swapnil Bhosale,Sauradip Nag,Diptesh Kanojia,Jiankang Deng,Xiatian Zhu 声音事件检测(SED)旨在预测感兴趣事件的时间边界和它们的类别标签,给定一个无限制的音频样本。所有现有方法都采用判别式学习视角,采用分割和分类(即帧级别)策略或更加原则性的事件级别建模方法来考虑SED问题。在这项工作中,我们通过采用生成式学习视角来重新构造SED问题。具体而言,我们旨在通过在去噪扩散过程中生成噪声建议中的声音时间边界,条件是目标音频样本。在训练过程中,我们的模型学习通过在优雅的Transformer解码器框架中将噪声潜在查询转换为地面真实版本来逆转噪声过程。这样做使得模型能够从即使是嘈杂的查询中生成准确的事件边界。在Urban-SED和EPIC-Sounds数据集上进行的广泛实验表明,我们的模型显著优于现有的替代方案,在训练中收敛速度提高了40%以上。

内容中包含的图片若涉及版权问题,请及时与我们联系删除