Music Style Transfer with Time-Varying Inversion of Diffusion Models

简介

随着扩散模型的发展，文本引导的图像风格转移已经展示了高质量的可控合成结果。然而，利用文本进行多样化音乐风格转移面临着重大挑战，主要是由于匹配音频文本数据集的可用性有限。音乐作为一种抽象和复杂的艺术形式，即使在同一流派中也展示出变化和复杂性，从而使得准确的文本描述具有挑战性。本文提出了一种有效捕捉音乐属性的音乐风格转移方法，使用最少的数据。我们引入了一种新颖的时间变化的文本反演模块，以精确捕捉不同级别的mel-spectrogram特征。在推理过程中，我们提出了一种偏差减少的风格化技术，以获得稳定的结果。实验结果表明，我们的方法可以转移特定乐器的风格，并结合自然声音来创作旋律。样本和源代码可在https://lsfhuihuiff.github.io/MusicTI/上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在缺乏匹配的音频文本数据集的情况下进行多样化的音乐风格转移？
关键思路

使用最少的数据有效地捕获音乐属性，提出了一种新的时间变换文本反演模块来精确捕获不同层次的mel-spectrogram特征，并在推理过程中提出了一种偏差减少的风格化技术，以获得稳定的结果。
其它亮点

论文展示了该方法可以转移特定乐器的风格，并结合自然声音来创作旋律。研究人员提供了样本和源代码。值得进一步研究。
相关研究

最近的相关研究包括：'Unsupervised Music Style Transfer Using Variational Autoencoders'，'Unsupervised Music Style Transfer with Adversarial Autoencoder'，'Neural Audio Synthesis for Musical Instruments'等。

Music Style Transfer with Time-Varying Inversion of Diffusion Models

提问交流

提问交流