Combined Generative and Predictive Modeling for Speech Super-resolution

2024年01月25日
  • 简介
    语音超分辨率(SR)是从低分辨率输入中恢复高分辨率语音的任务。现有的模型采用模拟数据和受限的实验设置,这限制了对真实世界SR的泛化能力。预测模型在固定实验环境中表现良好,但在不利条件下可能会引入伪影。另一方面,生成模型学习目标数据的分布,具有更好的能力在未见条件下表现良好。在本研究中,我们提出了一种新的两阶段方法,结合了预测模型和生成模型的优点。具体而言,我们采用了一种基于扩散的模型,该模型以预测模型的输出为条件。我们的实验表明,该模型在基准SR数据集上明显优于单阶段对照组和现有的强基准线。此外,我们在扩散过程的推理中引入了一种重新绘制技术,使得所提出的模型能够在不匹配的条件下重新生成高频成分。另一个贡献是收集并评估真实的SR记录,使用同一麦克风在不同的本地采样率下。我们免费提供这个数据集,以加速实现真实世界语音超分辨率的进展。
  • 作者讲解
  • 图表
  • 解决问题
    论文提出了解决语音超分辨率问题的新方法,试图解决在现有模型中存在的泛化能力不足的问题。
  • 关键思路
    该论文提出了一种结合了预测模型和生成模型的两阶段方法,通过扩散模型和预测模型的输出进行条件化,能够更好地处理真实世界中的语音超分辨率问题。
  • 其它亮点
    该论文在多个基准数据集上进行了实验,证明了该模型在超分辨率任务上的显著优势,并且在推理过程中使用了重新上色技术,能够在不匹配的条件下重建高频组件。此外,该论文还提供了一个真实的语音超分辨率数据集,并将其公开,以加速解决真实世界超分辨率问题的进展。
  • 相关研究
    近期的相关研究包括“Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network”和“Deep Back-Projection Networks for Super-Resolution”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问