- 简介最近,扩散模型的应用促进了语音和音频生成的显着发展。然而,扩散模型生成的样本质量仍需改进。该方法的有效性伴随着大量的采样步骤,导致生成高质量音频所需的合成时间延长。先前的文本到语音(TTA)方法大多在潜在空间中使用扩散模型进行音频生成。在本文中,我们探索了将流匹配(FM)模型集成到音频潜在空间中进行音频生成。FM是一种替代模拟的方法,它基于回归向量场训练连续归一化流(CNF)。我们证明了我们的模型显着提高了生成的音频样本的质量,实现了比以前模型更好的性能。此外,它几乎不损失性能,将推理步骤减少到了十个步骤。
-
- 图表
- 解决问题本文旨在探索将Flow Matching模型整合到音频潜空间中进行音频生成,以提高生成音频样本的质量和减少推理步骤的数量。
- 关键思路本文提出了一种基于Flow Matching的模型,将其整合到音频潜空间中进行音频生成,以提高生成音频样本的质量和减少推理步骤的数量。
- 其它亮点实验结果表明,该模型比以前的模型表现更好,并且几乎不会牺牲性能就能将推理步骤减少到10步。本文还开源了代码。
- 最近的相关研究包括使用扩散模型进行语音合成的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流