FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter

2024年06月12日
  • 简介
    语音编码器可以通过声学特征重构语音波形,在现代的语音合成系统中发挥着重要作用。像Vocos和APNet2这样的频域GAN语音编码器最近取得了快速进展,在推理速度方面优于时域模型,同时实现了可比较的音频质量。然而,这些频域语音编码器存在大量参数的问题,因此会增加额外的内存负担。受PriorGrad和SpecGrad的启发,我们采用伪逆来估计幅度谱,作为初始化的近似值。这种简单的初始化显著减轻了语音编码器的参数需求。基于APNet2和我们的精简幅度预测分支,我们提出了FreeV。与其对应的APNet2相比,我们的FreeV在几乎一半的参数下实现了1.8倍的推理速度提升。同时,我们的FreeV在重构质量方面优于APNet2,标志着追求实时高保真语音合成迈出了一步。代码和检查点可在以下网址找到:https://github.com/BakerBunker/FreeV。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决频域语音合成模型参数过大的问题,通过使用伪逆来初始化幅度谱,从而显著减少模型参数数量。
  • 关键思路
    本论文的关键思路是使用伪逆来初始化幅度谱,从而减少模型参数数量。相较于当前领域的研究,这种思路具有创新性。
  • 其它亮点
    该论文提出的FreeV模型在速度和音质方面都优于APNet2模型,同时模型参数数量也减少了一半。论文提供了代码和检查点,方便其他研究者使用和复现。值得深入研究。
  • 相关研究
    在最近的相关研究中,还有一些使用频域模型进行语音合成的研究,例如Vocos和APNet2。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问