SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

2024年05月28日
  • 简介
    音频内容是多媒体作品(如视频游戏、音乐和电影)中不可或缺的元素。最近,高质量的扩散式声音生成模型可以作为创作者的有价值工具。然而,尽管这些模型产生高质量的声音,但它们通常遭受缓慢的推理速度。这个缺点使得创作者通过试错来完善声音以使其符合他们的艺术意图。为了解决这个问题,我们引入了声音一致性轨迹模型(SoundCTM)。我们的模型实现了高质量1步声音生成和通过多步生成实现更高质量声音的灵活转换。这使得创作者可以在通过多步生成完善声音之前,使用1步样本控制声音。虽然CTM基本上实现了灵活的1步和多步生成,但其卓越的性能严重依赖于额外的预训练特征提取器和对抗性损失,这些是昂贵的训练成本,并且在其他领域并不总是可用的。因此,我们重新构建了CTM的训练框架,并利用教师网络进行蒸馏损失,引入了一种新的特征距离。此外,我们同时训练条件和无条件的学生模型,并在推理过程中在这些模型之间进行插值。我们还提出了无需训练的可控制SoundCTM框架,利用其灵活的采样能力。SoundCTM实现了有前途的1步和多步实时声音生成,而无需使用任何额外的现成网络。此外,我们展示了SoundCTM在无需训练的情况下实现可控制声音生成的能力。
  • 图表
  • 解决问题
    论文旨在解决高质量音频生成模型的推理速度慢的问题,提出了一种名为SoundCTM的模型,使得创作者可以在保证音频质量的情况下进行灵活的1步和多步音频生成。
  • 关键思路
    SoundCTM模型通过预训练特征提取器和对抗损失来实现灵活的1步和多步音频生成,并通过引入教师网络的蒸馏损失来改进训练框架,同时还提出了无需训练的可控框架。
  • 其它亮点
    论文实现了高质量的实时音频生成,同时提出了无需训练的可控框架,使用了多个数据集进行实验,并进行了详细的结果分析。论文的方法可以在音频生成领域得到广泛应用。
  • 相关研究
    与该论文相关的研究包括WaveNet、MelGAN、HiFiGAN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论