Music Style Transfer With Diffusion Model

简介

之前的音乐风格转换研究主要集中在一对一的风格转换上，这相对较为有限。考虑到多种风格之间的转换，以前的方法需要设计多个模式来分离音乐的复杂风格，导致计算成本大、音频生成缓慢。现有的音乐风格转换方法会生成带有伪影的频谱图，从而在生成的音频中产生显著的噪音。为了解决这些问题，本研究提出了一种基于扩散模型（DM）的音乐风格转换框架，并使用基于频谱图的方法实现多对多的音乐风格转换。采用GuideDiff方法将频谱图还原为高保真音频，加快了音频生成速度，降低了生成音频中的噪音。实验结果表明，与基线相比，我们的模型在多模式音乐风格转换方面具有良好的性能，并且可以在消费级GPU上实时生成高质量的音频。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决多对多音乐风格转换的问题，并且减少生成音频中的噪声。
关键思路

本论文提出了一种基于扩散模型的音乐风格转换框架，并使用GuideDiff方法将频谱图还原为高保真音频，从而实现实时高质量音频的生成。
其它亮点

本文的实验结果表明，在多模式音乐风格转换方面，与基线相比，我们的模型具有良好的性能，并且可以在消费级GPU上实时生成高质量音频。
相关研究

最近的相关研究包括基于GAN的音乐风格转换、基于VAE的音乐风格转换等。

Music Style Transfer With Diffusion Model

提问交流

提问交流