Music ControlNet: Multiple Time-varying Controls for Music Generation

2023年11月13日
  • 简介
    文本生成音乐模型现在已经能够以广泛的风格生成高质量的音乐音频。然而,文本控制主要适用于全局音乐属性的操纵,如流派、心情和节奏,而不适合精确控制时间变化属性,如时间轴上的节拍位置或音乐变化动态。我们提出了Music ControlNet,这是一种基于扩散的音乐生成模型,提供多个精确的、时间变化的控制,可以控制生成的音频。为了赋予文本生成音乐模型时间变化控制,我们提出了一种类似于图像域ControlNet方法的像素级控制方法。具体而言,我们从训练音频中提取控制,产生成对数据,然后针对音乐控制、旋律、动态和节奏,对音频频谱图进行扩散条件生成模型的微调。虽然图像域Uni-ControlNet方法已经允许使用任何子集的控件进行生成,但我们设计了一种新的策略,允许创作者输入部分指定时间的控制。我们评估了从音频中提取的控制和我们希望创作者提供的控制,证明我们可以生成与两种设置中的控制输入相对应的逼真音乐。虽然存在很少可比较的音乐生成模型,但我们对比了接受文本和旋律输入的最近的MusicGen模型,并展示了我们的模型生成的音乐比输入旋律更忠实,尽管参数少35倍、训练数据少11倍,并且可以实现两种额外的时间变化控制。声音示例可以在https://MusicControlNet.github.io/web/找到。
  • 图表
  • 解决问题
    论文试图提出一种新的音乐生成模型Music ControlNet,解决现有的文本控制音乐生成模型在时间变化属性控制方面的不足。
  • 关键思路
    论文提出了一种基于扩散的条件生成模型,通过从训练音频中提取控制信息,实现对音乐的精细控制,包括旋律、动态和节奏等时间变化属性。
  • 其它亮点
    论文的实验结果表明,Music ControlNet 模型不仅可以生成高质量的音乐,而且在输入旋律的情况下,与 MusicGen 模型相比,生成的音乐更加忠实于输入的旋律。此外,论文还提供了开源代码和数据集。
  • 相关研究
    最近的相关研究包括:MusicGen, Uni-ControlNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论