LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation

简介

最近，扩散模型的应用促进了语音和音频生成的显着发展。然而，扩散模型生成的样本质量仍需改进。该方法的有效性伴随着大量的采样步骤，导致生成高质量音频所需的合成时间延长。先前的文本到语音（TTA）方法大多在潜在空间中使用扩散模型进行音频生成。在本文中，我们探索了将流匹配（FM）模型集成到音频潜在空间中进行音频生成。FM是一种替代模拟的方法，它基于回归向量场训练连续归一化流（CNF）。我们证明了我们的模型显着提高了生成的音频样本的质量，实现了比以前模型更好的性能。此外，它几乎不损失性能，将推理步骤减少到了十个步骤。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探索将Flow Matching模型整合到音频潜空间中进行音频生成，以提高生成音频样本的质量和减少推理步骤的数量。
关键思路

本文提出了一种基于Flow Matching的模型，将其整合到音频潜空间中进行音频生成，以提高生成音频样本的质量和减少推理步骤的数量。
其它亮点

实验结果表明，该模型比以前的模型表现更好，并且几乎不会牺牲性能就能将推理步骤减少到10步。本文还开源了代码。
相关研究

最近的相关研究包括使用扩散模型进行语音合成的研究。