目前,可控的音乐生成方法对于以人为中心的基于人工智能的音乐创作至关重要,但目前受到速度、质量和控制设计权衡的限制。特别是,扩散推理时间T优化(DITTO)提供了最先进的结果,但比实时慢10倍以上,限制了实际应用。我们提出了精简扩散推理时间T优化(DITTO-2),这是一种新的方法,可以加速推理时间优化控制,并解锁各种应用的快于实时的生成,例如音乐修复、扩展、强度、旋律和音乐结构控制。我们的方法通过以下方式工作:(1)通过高效的、修改的一致性或一致性轨迹蒸馏过程,提炼预训练的扩散模型以进行快速采样;(2)使用我们的提炼模型进行推理时间优化,使用一步采样作为高效的代理优化任务;(3)使用我们估计的噪声潜变量运行最终的多步采样生成(解码),以获得最佳质量、快速、可控的生成。通过彻底的评估,我们发现我们的方法不仅可以将生成速度提高10-20倍,而且同时提高了控制粘附度和生成质量。此外,我们将我们的方法应用于最大化文本粘附度(CLAP得分)的新应用,并展示我们可以将没有文本输入的无条件扩散模型转化为产生最先进文本控制的模型。声音示例可以在https://ditto-music.github.io/ditto2/找到。
提问交流