- 简介我们提出了COCOLA(面向连贯性的对比学习音频),这是一种对音乐音频表示进行对比学习的方法,可以捕捉样本之间的和谐和节奏连贯性。我们的方法在组成音乐曲目的音轨(或它们的组合)级别操作,并允许在伴奏生成任务中客观评估音乐创作模型。我们还介绍了一种基于ControlNet的组合音乐生成新基准CompoNet,将MSDM的任务进行了泛化,并使用COCOLA对其进行了量化比较。我们发布了在包含单独音轨(MUSDB18-HQ、MoisesDB、Slakh2100和CocoChorales)的公共数据集上训练的所有模型。
- 图表
- 解决问题本文旨在提出一种基于对比学习的音频表示方法,以捕捉音频样本之间的和谐和节奏一致性,以及在音乐伴奏生成任务中对组合音轨进行客观评估。同时,本文还提出了一种名为CompoNet的基线模型,用于音乐生成任务,并将其与现有模型进行比较。
- 关键思路本文提出了一种基于对比学习的音频表示方法,该方法能够对音频样本之间的和谐和节奏一致性进行建模,从而提高音乐生成任务的表现。同时,本文还提出了一种新的基线模型CompoNet,用于音乐生成任务。
- 其它亮点本文使用公共数据集(包括MUSDB18-HQ,MoisesDB,Slakh2100和CocoChorales)进行了实验,并开源了所有模型。实验结果表明,本文提出的方法在音乐生成任务中表现出色,并且CompoNet模型相对于现有模型有了一定的提升。本文的方法和模型对于音乐生成任务有着广泛的应用前景,值得进一步研究。
- 近期相关研究包括:'Transformer-based Music Generation with Long-term Structure','Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-resolution Spectrogram','HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis'等。


提问交流