- 简介生成44.1kHz立体声长形式音频需要消耗大量计算资源。此外,以往的研究大多未能解决音乐和音效在持续时间上的自然变化。我们的研究专注于使用生成模型,通过文本提示高效生成44.1kHz可变长度立体声音乐和声音。Stable Audio基于潜在扩散,其潜在空间由全卷积变分自编码器定义。它不仅受到文本提示的影响,还受到时间嵌入的影响,从而对生成的音乐和声音的内容和长度进行精细控制。Stable Audio能够在A100 GPU上以8秒的速度在44.1kHz下渲染长达95秒的立体声信号。尽管它的计算效率和快速推理,但在两个公开的文本到音乐和音频基准测试中,它是最好的之一,并且与最先进的模型不同,可以生成具有结构和立体声的音乐。
-
- 图表
- 解决问题本论文旨在解决从文本提示生成44.1kHz立体声长形式音频的计算问题,并且能够处理音乐和音效的长度变化。同时,该论文还试图探索使用生成模型实现对生成音乐和声音的内容和长度进行精细控制的方法。
- 关键思路该论文提出了一种基于潜在扩散的方法,其中潜在空间由全卷积变分自编码器定义,并且结合了文本提示和时间嵌入,从而实现对生成音乐和声音的内容和长度进行精细控制。
- 其它亮点该论文的亮点包括:1.使用了一种高效的方法生成长形式的立体声音频;2.结合了文本提示和时间嵌入,能够精细控制生成音乐和声音的内容和长度;3.实验结果表明,该方法在公共数据集上表现优异,并且能够生成有结构的音乐和立体声音效;4.开源了代码,方便其他研究者进行进一步研究。
- 在这个领域中,最近的相关研究包括:1. 'Music Transformer: Generating Music with Long-Term Structure';2. 'Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders';3. 'GANSynth: Adversarial Neural Audio Synthesis'。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流