- 简介之前的音乐风格转换研究主要集中在一对一的风格转换上,这相对较为有限。考虑到多种风格之间的转换,以前的方法需要设计多个模式来分离音乐的复杂风格,导致计算成本大、音频生成缓慢。现有的音乐风格转换方法会生成带有伪影的频谱图,从而在生成的音频中产生显著的噪音。为了解决这些问题,本研究提出了一种基于扩散模型(DM)的音乐风格转换框架,并使用基于频谱图的方法实现多对多的音乐风格转换。采用GuideDiff方法将频谱图还原为高保真音频,加快了音频生成速度,降低了生成音频中的噪音。实验结果表明,与基线相比,我们的模型在多模式音乐风格转换方面具有良好的性能,并且可以在消费级GPU上实时生成高质量的音频。
-
- 图表
- 解决问题本论文旨在解决多对多音乐风格转换的问题,并且减少生成音频中的噪声。
- 关键思路本论文提出了一种基于扩散模型的音乐风格转换框架,并使用GuideDiff方法将频谱图还原为高保真音频,从而实现实时高质量音频的生成。
- 其它亮点本文的实验结果表明,在多模式音乐风格转换方面,与基线相比,我们的模型具有良好的性能,并且可以在消费级GPU上实时生成高质量音频。
- 最近的相关研究包括基于GAN的音乐风格转换、基于VAE的音乐风格转换等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流