Combined Generative and Predictive Modeling for Speech Super-resolution

简介

语音超分辨率（SR）是从低分辨率输入中恢复高分辨率语音的任务。现有的模型采用模拟数据和受限的实验设置，这限制了对真实世界SR的泛化能力。预测模型在固定实验环境中表现良好，但在不利条件下可能会引入伪影。另一方面，生成模型学习目标数据的分布，具有更好的能力在未见条件下表现良好。在本研究中，我们提出了一种新的两阶段方法，结合了预测模型和生成模型的优点。具体而言，我们采用了一种基于扩散的模型，该模型以预测模型的输出为条件。我们的实验表明，该模型在基准SR数据集上明显优于单阶段对照组和现有的强基准线。此外，我们在扩散过程的推理中引入了一种重新绘制技术，使得所提出的模型能够在不匹配的条件下重新生成高频成分。另一个贡献是收集并评估真实的SR记录，使用同一麦克风在不同的本地采样率下。我们免费提供这个数据集，以加速实现真实世界语音超分辨率的进展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了解决语音超分辨率问题的新方法，试图解决在现有模型中存在的泛化能力不足的问题。
关键思路

该论文提出了一种结合了预测模型和生成模型的两阶段方法，通过扩散模型和预测模型的输出进行条件化，能够更好地处理真实世界中的语音超分辨率问题。
其它亮点

该论文在多个基准数据集上进行了实验，证明了该模型在超分辨率任务上的显著优势，并且在推理过程中使用了重新上色技术，能够在不匹配的条件下重建高频组件。此外，该论文还提供了一个真实的语音超分辨率数据集，并将其公开，以加速解决真实世界超分辨率问题的进展。
相关研究

近期的相关研究包括“Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network”和“Deep Back-Projection Networks for Super-Resolution”等。

Combined Generative and Predictive Modeling for Speech Super-resolution

提问交流

提问交流