Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge

2024年06月10日
  • 简介
    扩散式语音增强已经显示出良好的效果,但可能会导致较慢的推理时间。使用基于回归模型生成的增强音频来初始化扩散过程可以减少所需的计算步骤。然而,这些方法经常需要回归模型,进一步增加了系统的复杂性。我们提出了Thunder,一个统一的回归-扩散模型,利用布朗桥过程,可以使模型在两种模式下运作。通过将扩散时间步长设置为接近1,可以访问回归模式。然而,标准的基于分数的扩散建模在这种设置下表现不佳,由于梯度不稳定性。为了缓解这个问题,我们修改了扩散模型,以预测干净的语音而不是分数函数,实现了与更紧凑的模型大小和更少的反向步骤相比具有竞争力的性能。
  • 图表
  • 解决问题
    本文旨在解决扩散基语音增强模型推理速度较慢的问题,同时减少回归模型的复杂度。
  • 关键思路
    本文提出了一种统一的回归-扩散模型Thunder,利用布朗桥过程实现了模型在两种模式下的操作,通过将扩散时间步设置为接近1来访问回归模式。
  • 其它亮点
    本文的亮点在于使用更紧凑的模型大小和更少的反向步骤来实现预测干净语音而不是分数函数,从而解决了梯度不稳定性的问题。实验结果表明,Thunder模型相比于其他方法在语音增强任务上表现更好。
  • 相关研究
    近期的相关研究包括:'Deep Learning Based Speech Enhancement: A Review','Speech Enhancement Using Deep Neural Networks: A Review'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论