MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation

简介

现有的文本转音乐模型可以产生高质量、多样性的音频。然而，仅有文本提示并不能精确控制生成音乐的和弦和节奏等时间上的音乐特征。为了解决这个挑战，我们介绍了MusiConGen，一个基于Transformer的时间条件文本转音乐模型，它建立在预训练的MusicGen框架之上。我们的创新在于一种针对消费级GPU量身定制的高效微调机制，它将自动提取的节奏和和弦作为条件信号集成进去。在推理过程中，条件可以是从参考音频信号提取的音乐特征，也可以是用户定义的符号和弦序列、BPM和文本提示。我们在两个数据集上进行了性能评估——一个是从提取的特征中得到的，另一个是从用户创建的输入中得到的，结果表明MusiConGen可以生成与指定条件相符的逼真的伴奏音乐。我们开源了代码和模型检查点，并在网上提供了音频示例，https://musicongen.github.io/musicongen_demo/。
图表
解决问题

MusiConGen试图解决文本提示无法精确控制生成音乐的时间特征的问题。
关键思路

MusiConGen是一种基于Transformer的文本到音乐模型，通过自动提取的节奏和和弦作为条件信号进行有效的微调，从而在生成音乐时精确控制时间特征。
其它亮点

论文使用两个数据集对MusiConGen进行了性能评估，并提供了开源代码和模型检查点。MusiConGen可以生成与指定条件良好对齐的逼真的伴奏音乐。
相关研究

最近的相关研究包括MusicGen和其他文本到音乐模型，如MuseNet和Transformer-based Music Language Model。

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation

评论