Fast Timing-Conditioned Latent Audio Diffusion

2024年02月07日
  • 简介
    生成44.1kHz立体声长形式音频需要大量计算。此外,大多数以前的研究没有解决音乐和音效在持续时间上的自然变化。我们的研究专注于使用生成模型以文本提示高效生成44.1kHz可变长度立体声音乐和声音。Stable Audio基于潜在扩散,其潜在空间由全卷积变分自编码器定义。它不仅以文本提示为条件,还以时间嵌入为条件,从而可以对生成的音乐和声音的内容和长度进行精细控制。Stable Audio能够在A100 GPU上在8秒内渲染长达95秒的立体声信号。尽管它的计算效率和快速推理,但在两个公共文本到音乐和音频基准测试中,它是最好的,并且与最先进的模型不同,它可以生成具有结构和立体声的音乐。
  • 图表
  • 解决问题
    本论文旨在解决从文本提示中高效生成长形式、可变长度的立体声音乐和声音的问题,同时探索音乐和声音在时长上的自然变化。这是否是一个新问题?
  • 关键思路
    本文提出了一种名为Stable Audio的生成模型,基于潜在扩散,其潜在空间由全卷积变分自编码器定义,同时结合文本提示和时间嵌入,可以对生成的音乐和声音的内容和长度进行精细控制。相比现有的研究,Stable Audio在计算效率和快速推理方面表现出色,并且能够生成具有结构和立体声的音乐和声音。
  • 其它亮点
    本文实现了Stable Audio模型,可以在A100 GPU上以8秒的速度生成44.1kHz的长形式立体声信号,长度最长可达95秒。同时,在两个公共的文本到音乐和音频基准测试中表现出色。论文还提供了实验设计和使用的数据集,同时开源了代码,方便其他研究者进行更深入的研究。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. MusicBERT: A Universal Language Model for Music Analysis and Generation; 2. MIDI-VAE: Modeling Dynamics, Instruments, and Tempo with Hierarchical Variational Autoencoders on Symbolic Music; 3. WaveGrad: Estimating Gradients for Waveform Generation。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问