BUDDy: Single-Channel Blind Unsupervised Dereverberation with Diffusion Models

2024年05月07日
  • 简介
    本文提出了一种无监督的单通道方法,用于联合盲目去混响和房间脉冲响应估计,基于扩散模型的后验采样。我们使用指数衰减滤波器对每个频率子带的混响算子进行参数化,并在沿反向扩散轨迹细化语音话语时迭代地估计相应的参数。测量一致性标准强制生成的语音与混响测量的保真度,而无条件扩散模型实现了干净语音生成的强先验知识。在没有任何房间脉冲响应知识或任何耦合混响-非混响数据的情况下,我们可以成功地在各种声学场景中进行去混响。我们的方法显著优于以前的盲目无监督基线,并且我们展示了它相对于盲目监督方法在面对未见过的声学条件时的增强鲁棒性。音频样本和代码可在网上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提出一种针对单声道信号的无监督联合盲消混响和房间脉冲响应估计方法,解决在不知道房间脉冲响应或混响和无混响数据的情况下的问题。
  • 关键思路
    本文的关键思路是使用扩散模型进行后验采样,使用指数衰减滤波器对各频率子带的混响算子进行参数化,并在沿反向扩散轨迹细化语音时迭代地估计相应的参数。通过测量一致性标准来强制生成的语音与混响测量的保真度,而无条件扩散模型则实现了干净语音生成的强先验。
  • 其它亮点
    本文的方法在不同的声学场景中成功地进行了消混响,明显优于以前的盲无监督基线,并且相对于盲有监督方法,展示了其对未见过的声学条件的增强鲁棒性。作者提供了音频样本和代码。
  • 相关研究
    最近的相关研究包括基于深度学习的盲消混响方法和基于盲源分离的方法,如“Blind Speech Separation Based on Sparse Non-Negative Matrix Factorization With Temporal Continuity and Sparseness Constraints”和“Single Channel Speech Separation with Spatial and Spectral Cues via Supervised Non-Negative Matrix Factorization”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问