Retrieval-Augmented Text-to-Audio Generation

2023年09月14日
  • 简介
    尽管文本转音频(TTA)生成方面取得了一些进展,但我们发现,像AudioLDM这样的最先进模型,其在类别分布不平衡的数据集(如AudioCaps)上训练时,会在生成性能方面存在偏差。具体而言,它们在生成常见音频类别方面表现出色,而在罕见音频类别方面表现不佳,从而降低了整体生成性能。我们将这个问题称为长尾文本转音频生成。为了解决这个问题,我们提出了一种简单的检索增强方法来处理TTA模型。具体而言,给定一个输入文本提示,我们首先利用对比语音预训练(CLAP)模型来检索相关的文本-音频对。然后,检索到的音频文本数据的特征被用作额外的条件来指导TTA模型的学习。我们使用我们提出的方法增强了AudioLDM,并将结果称为Re-AudioLDM。在AudioCaps数据集上,Re-AudioLDM实现了1.37的最先进Frechet Audio Distance(FAD),大大优于现有方法。此外,我们表明Re-AudioLDM可以为复杂场景、罕见音频类别甚至未见过的音频类型生成逼真的音频,表明其在TTA任务中的潜力。
  • 图表
  • 解决问题
    解决长尾文本转音频生成中的偏差问题,即在训练数据集中存在类别不平衡的情况下,现有模型在生成音频时对常见类别表现优秀,而对罕见类别表现较差,降低了总体生成性能。
  • 关键思路
    提出了一种检索增强的文本到音频生成方法,通过使用对比语言音频预训练模型检索相关的文本-音频对,将检索到的音频-文本数据的特征用作指导TTA模型学习的附加条件,从而提高生成性能。
  • 其它亮点
    论文使用了Contrastive Language Audio Pretraining (CLAP)模型进行检索,提出了一种检索增强的TTA生成方法Re-AudioLDM,在AudioCaps数据集上取得了1.37的FAD,优于现有方法。实验结果表明,Re-AudioLDM可以生成复杂场景、罕见音频类别甚至未见过的音频类型的真实音频,具有潜在的TTA应用价值。
  • 相关研究
    相关研究包括使用GAN、VAE等方法进行TTA生成,以及应用检索增强的方法进行文本到图像生成等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论