Fast Timing-Conditioned Latent Audio Diffusion

向作者提问

NEW

简介

生成44.1kHz立体声长形式音频需要大量计算。此外，大多数以前的研究没有解决音乐和音效在持续时间上的自然变化。我们的研究专注于使用生成模型以文本提示高效生成44.1kHz可变长度立体声音乐和声音。Stable Audio基于潜在扩散，其潜在空间由全卷积变分自编码器定义。它不仅以文本提示为条件，还以时间嵌入为条件，从而可以对生成的音乐和声音的内容和长度进行精细控制。Stable Audio能够在A100 GPU上在8秒内渲染长达95秒的立体声信号。尽管它的计算效率和快速推理，但在两个公共文本到音乐和音频基准测试中，它是最好的，并且与最先进的模型不同，它可以生成具有结构和立体声的音乐。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决从文本提示中高效生成长形式、可变长度的立体声音乐和声音的问题，同时探索音乐和声音在时长上的自然变化。这是否是一个新问题？
关键思路

本文提出了一种名为Stable Audio的生成模型，基于潜在扩散，其潜在空间由全卷积变分自编码器定义，同时结合文本提示和时间嵌入，可以对生成的音乐和声音的内容和长度进行精细控制。相比现有的研究，Stable Audio在计算效率和快速推理方面表现出色，并且能够生成具有结构和立体声的音乐和声音。
其它亮点

本文实现了Stable Audio模型，可以在A100 GPU上以8秒的速度生成44.1kHz的长形式立体声信号，长度最长可达95秒。同时，在两个公共的文本到音乐和音频基准测试中表现出色。论文还提供了实验设计和使用的数据集，同时开源了代码，方便其他研究者进行更深入的研究。
相关研究

在这个领域中，最近的相关研究包括：1. MusicBERT: A Universal Language Model for Music Analysis and Generation; 2. MIDI-VAE: Modeling Dynamics, Instruments, and Tempo with Hierarchical Variational Autoencoders on Symbolic Music; 3. WaveGrad: Estimating Gradients for Waveform Generation。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问