LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation

2024年06月12日
  • 简介
    最近,扩散模型的应用促进了语音和音频生成的显着发展。然而,扩散模型生成的样本质量仍需改进。该方法的有效性伴随着大量的采样步骤,导致生成高质量音频所需的合成时间延长。先前的文本到语音(TTA)方法大多在潜在空间中使用扩散模型进行音频生成。在本文中,我们探索了将流匹配(FM)模型集成到音频潜在空间中进行音频生成。FM是一种替代模拟的方法,它基于回归向量场训练连续归一化流(CNF)。我们证明了我们的模型显着提高了生成的音频样本的质量,实现了比以前模型更好的性能。此外,它几乎不损失性能,将推理步骤减少到了十个步骤。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在探索将Flow Matching模型整合到音频潜空间中进行音频生成,以提高生成音频样本的质量和减少推理步骤的数量。
  • 关键思路
    本文提出了一种基于Flow Matching的模型,将其整合到音频潜空间中进行音频生成,以提高生成音频样本的质量和减少推理步骤的数量。
  • 其它亮点
    实验结果表明,该模型比以前的模型表现更好,并且几乎不会牺牲性能就能将推理步骤减少到10步。本文还开源了代码。
  • 相关研究
    最近的相关研究包括使用扩散模型进行语音合成的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问