DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

简介

目前，可控的音乐生成方法对于以人为中心的基于人工智能的音乐创作至关重要，但目前受到速度、质量和控制设计权衡的限制。特别是，扩散推理时间T优化（DITTO）提供了最先进的结果，但比实时慢10倍以上，限制了实际应用。我们提出了精简扩散推理时间T优化（DITTO-2），这是一种新的方法，可以加速推理时间优化控制，并解锁各种应用的快于实时的生成，例如音乐修复、扩展、强度、旋律和音乐结构控制。我们的方法通过以下方式工作：（1）通过高效的、修改的一致性或一致性轨迹蒸馏过程，提炼预训练的扩散模型以进行快速采样；（2）使用我们的提炼模型进行推理时间优化，使用一步采样作为高效的代理优化任务；（3）使用我们估计的噪声潜变量运行最终的多步采样生成（解码），以获得最佳质量、快速、可控的生成。通过彻底的评估，我们发现我们的方法不仅可以将生成速度提高10-20倍，而且同时提高了控制粘附度和生成质量。此外，我们将我们的方法应用于最大化文本粘附度（CLAP得分）的新应用，并展示我们可以将没有文本输入的无条件扩散模型转化为产生最先进文本控制的模型。声音示例可以在https://ditto-music.github.io/ditto2/找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过提出Distilled Diffusion Inference-Time T-Optimization (DITTO-2)方法，解决音乐生成中速度、质量和控制设计的平衡问题，实现快于实时的生成。
关键思路

DITTO-2方法通过预训练扩散模型的精简，使用一步采样作为有效的代理优化任务进行推理时间优化，并使用估计的噪声潜变量进行多步采样生成，从而加速音乐生成并提高控制精度和生成质量。
其它亮点

论文通过实验验证了DITTO-2方法的高效性和有效性，并将其应用于最大化文本一致性的新领域，获得了最先进的文本控制效果。此外，论文还提供了开源代码和音频示例。
相关研究

最近的相关研究包括：1）使用深度学习进行音乐生成的研究；2）使用扩散模型进行音乐生成的研究。

DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation

提问交流

提问交流