DSP-informed bandwidth extension using locally-conditioned excitation and linear time-varying filter subnetworks

2024年07月22日
  • 简介
    本文提出了一种双阶段架构的带宽扩展(BWE)方法,将语音信号的有效采样率从8 kHz增加到48 kHz。与现有的端到端深度学习模型不同,我们的方法明确地使用激励和线性时变(LTV)滤波器阶段来建模BWE。激励阶段扩展了输入的频谱,而滤波阶段则根据声学特征预测器的输出来适当地塑造它。为此,声学特征损失项可以隐式地促使激励子网络在要合成的上频带产生白色频谱。实验结果表明,我们的方法提供的归纳偏差可以改进使用SEANet或HiFi-GAN生成器的BWE结果,并且我们使用声学特征预测适应处理的方式比HiFi-GAN-2更有效。次要贡献包括扩展SEANet模型以适应本地条件信息,以及将HiFi-GAN-2应用于BWE问题。
  • 作者讲解
  • 图表
  • 解决问题
    本论文提出了一种双阶段架构的带宽扩展(BWE)方法,将语音信号的有效采样率从8 kHz提高到48 kHz。该方法相比现有的端到端深度学习模型,明确使用激励和线性时变(LTV)滤波器阶段来建模BWE。
  • 关键思路
    本论文的关键思路是使用激励和LTV滤波器阶段来建模BWE,通过声学特征预测器的输出来适当地塑造输入信号的频谱。通过引入声学特征损失项,可以隐式地促进激励子网络在要合成的上频段产生白色频谱。
  • 其它亮点
    本论文的亮点包括:将SEANet模型扩展以适应局部条件信息,以及将HiFi-GAN-2应用于BWE问题。实验结果表明,相比使用SEANet或HiFi-GAN的发生器进行BWE,本论文提出的方法可以改善BWE结果,并且使用声学特征预测来调整处理的方法比HiFi-GAN-2更为有效。本文使用了多个数据集进行实验,并且已经开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,一些研究关注于使用深度学习模型进行BWE,例如HiFi-GAN和SEANet。还有一些研究关注于使用其他信号处理技术进行BWE,例如插值和频率域重采样。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问