FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter

简介

语音编码器可以通过声学特征重构语音波形，在现代的语音合成系统中发挥着重要作用。像Vocos和APNet2这样的频域GAN语音编码器最近取得了快速进展，在推理速度方面优于时域模型，同时实现了可比较的音频质量。然而，这些频域语音编码器存在大量参数的问题，因此会增加额外的内存负担。受PriorGrad和SpecGrad的启发，我们采用伪逆来估计幅度谱，作为初始化的近似值。这种简单的初始化显著减轻了语音编码器的参数需求。基于APNet2和我们的精简幅度预测分支，我们提出了FreeV。与其对应的APNet2相比，我们的FreeV在几乎一半的参数下实现了1.8倍的推理速度提升。同时，我们的FreeV在重构质量方面优于APNet2，标志着追求实时高保真语音合成迈出了一步。代码和检查点可在以下网址找到：https://github.com/BakerBunker/FreeV。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决频域语音合成模型参数过大的问题，通过使用伪逆来初始化幅度谱，从而显著减少模型参数数量。
关键思路

本论文的关键思路是使用伪逆来初始化幅度谱，从而减少模型参数数量。相较于当前领域的研究，这种思路具有创新性。
其它亮点

该论文提出的FreeV模型在速度和音质方面都优于APNet2模型，同时模型参数数量也减少了一半。论文提供了代码和检查点，方便其他研究者使用和复现。值得深入研究。
相关研究

在最近的相关研究中，还有一些使用频域模型进行语音合成的研究，例如Vocos和APNet2。

FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter

提问交流

提问交流