DITTO: Diffusion Inference-Time T-Optimization for Music Generation

2024年01月22日
  • 简介
    我们提出了扩散推理时间T优化(DITTO)框架,这是一个通用的框架,用于通过优化初始噪声潜变量来控制预训练的文本到音乐扩散模型。我们的方法可以用于通过任何可微分的特征匹配损失函数进行优化,以实现目标(风格化)输出,并利用梯度检查点技术提高内存效率。我们展示了音乐生成的惊人广泛应用,包括修复、扩展和循环,以及强度、旋律和音乐结构控制,而且不需要对基础模型进行微调。当我们将我们的方法与相关的训练、指导和基于优化的方法进行比较时,我们发现DITTO在几乎所有任务上都达到了最先进的性能,包括在可控性、音频质量和计算效率方面优于可比较的方法,从而为扩散模型的高质量、灵活、无需训练的控制打开了大门。声音示例可在https://DITTO-Music.github.io/web/找到。
  • 图表
  • 解决问题
    DITTO论文旨在提供一种控制预训练的文本到音乐扩散模型的通用框架,通过优化初始噪声潜变量来在推理时进行控制,从而实现音乐生成的多种应用。
  • 关键思路
    DITTO利用优化初始噪声潜变量的方式,通过任何可微分的特征匹配损失来实现目标输出,同时利用梯度检查点实现内存效率,可以实现音乐生成的多种应用,包括修复、扩展、循环、强度、旋律和音乐结构控制,而无需微调底层模型。
  • 其它亮点
    DITTO具有高质量、灵活、无需训练的控制扩散模型的能力,可以实现音乐生成的多种应用,包括修复、扩展、循环、强度、旋律和音乐结构控制,而无需微调底层模型。DITTO在几乎所有任务上都实现了最新的性能,包括在可控性、音频质量和计算效率方面优于可比较的方法。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如:1)Generative Adversarial Networks (GANs) 2)Auto-regressive models 3)Flow-based models 4)Variational Auto-Encoders (VAEs)等等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问