Fast Text-to-Audio Generation with Adversarial Post-Training

2025年05月13日
  • 简介
    尽管文本转音频系统的表现日益提升,但在推理阶段速度较慢,这使得其延迟对于许多创意应用来说不够实用。我们提出了对抗性相对对比(ARC)后训练方法,这是首个不基于知识蒸馏的扩散/流模型加速算法。以往的对抗性后训练方法在与昂贵的知识蒸馏方法竞争时表现不佳,而ARC后训练是一种简单的流程,它(1)将最近的相对对抗性公式扩展到扩散/流模型的后训练中,并(2)结合一种新颖的对比判别器目标函数,以促进更好的提示遵循能力。我们将ARC后训练与多项优化技术结合,应用于Stable Audio Open,构建了一个能够在H100上以约75毫秒生成约12秒的44.1kHz立体声音频,并在移动边缘设备上生成约7秒音频的模型。据我们所知,这是目前最快的文本转音频模型。
  • 图表
  • 解决问题
    该论文试图解决文本到音频生成系统在推理阶段速度过慢的问题,导致其在许多需要低延迟的创意应用中不可行。这是一个长期存在的问题,但本文提出了一种新的加速方法。
  • 关键思路
    关键思路是引入Adversarial Relativistic-Contrastive (ARC) 后训练方法,这是一种不依赖知识蒸馏的对抗性加速算法。该方法通过扩展相对论对抗公式到扩散/流模型后训练,并结合对比鉴别器目标来提高对提示的遵守度。相比传统蒸馏方法,ARC提供了一种更简单的优化路径。
  • 其它亮点
    实验设计表明,使用ARC后训练的模型可以在H100上以约75毫秒生成约12秒的44.1kHz立体声音频,在移动设备上也可实现约7秒的生成时间,这是目前已知最快的文本到音频模型。此外,研究团队基于Stable Audio Open进行了多项优化。代码和模型可能已经开源(需进一步确认),并且未来可以探索更多轻量化模型的应用场景。
  • 相关研究
    最近的相关研究包括:1) 基于知识蒸馏的加速方法,例如“Accelerating Diffusion Models with Knowledge Distillation”;2) 高效生成模型的研究,如“FastSpeech 2: Fast and High-Quality End-to-End Text to Speech”;3) 对抗生成网络在音频领域的应用,例如“WaveGAN: A Progressive Growing of GANs for Waveform Synthesis”。这些研究为本文提供了理论和技术基础,而ARC则通过非蒸馏方式实现了显著性能提升。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论