- 简介生成44.1kHz立体声长形式音频需要大量计算。此外,大多数以前的研究没有解决音乐和音效在持续时间上的自然变化。我们的研究专注于使用生成模型以文本提示高效生成44.1kHz可变长度立体声音乐和声音。Stable Audio基于潜在扩散,其潜在空间由全卷积变分自编码器定义。它不仅以文本提示为条件,还以时间嵌入为条件,从而可以对生成的音乐和声音的内容和长度进行精细控制。Stable Audio能够在A100 GPU上在8秒内渲染长达95秒的立体声信号。尽管它的计算效率和快速推理,但在两个公共文本到音乐和音频基准测试中,它是最好的,并且与最先进的模型不同,它可以生成具有结构和立体声的音乐。
- 图表
- 解决问题本论文旨在解决从文本提示中高效生成长形式、可变长度的立体声音乐和声音的问题,同时探索音乐和声音在时长上的自然变化。这是否是一个新问题?
- 关键思路本文提出了一种名为Stable Audio的生成模型,基于潜在扩散,其潜在空间由全卷积变分自编码器定义,同时结合文本提示和时间嵌入,可以对生成的音乐和声音的内容和长度进行精细控制。相比现有的研究,Stable Audio在计算效率和快速推理方面表现出色,并且能够生成具有结构和立体声的音乐和声音。
- 其它亮点本文实现了Stable Audio模型,可以在A100 GPU上以8秒的速度生成44.1kHz的长形式立体声信号,长度最长可达95秒。同时,在两个公共的文本到音乐和音频基准测试中表现出色。论文还提供了实验设计和使用的数据集,同时开源了代码,方便其他研究者进行更深入的研究。
- 在这个领域中,最近的相关研究包括:1. MusicBERT: A Universal Language Model for Music Analysis and Generation; 2. MIDI-VAE: Modeling Dynamics, Instruments, and Tempo with Hierarchical Variational Autoencoders on Symbolic Music; 3. WaveGrad: Estimating Gradients for Waveform Generation。


提问交流