- 简介最近深度生成模型的进展为音乐制作提供了新的机遇,但也带来了挑战,如高计算需求和有限的音频质量。此外,当前的系统经常仅依赖于文本输入,通常专注于生成完整的音乐作品,这与音乐制作中现有的工作流程不兼容。为了解决这些问题,我们介绍了“Diff-A-Riff”,这是一个设计用于生成高质量的器乐伴奏并适应于任何音乐背景的潜在扩散模型。该模型通过音频参考、文本提示或两者都可进行控制,并且在显著减少推理时间和内存使用的同时生成48kHz的伪立体声音频。我们通过客观指标和主观听测试展示了该模型的能力,并在附带的网站上提供了丰富的示例:sonycslparis.github.io/diffariff-companion/。
- 图表
- 解决问题本论文旨在解决音乐生成中的高计算需求和音频质量限制,以及现有系统只能生成完整音乐作品的问题,提出了一种名为Diff-A-Riff的潜在扩散模型,可以生成高质量的乐器伴奏,并可通过音频参考、文本提示或两者结合进行控制。
- 关键思路论文提出了Diff-A-Riff模型,该模型采用潜在扩散过程,在保证音频质量的同时显著减少推理时间和内存使用。该模型还可以通过音频参考、文本提示或两者结合进行控制,生成适用于任何音乐背景的高质量乐器伴奏。
- 其它亮点论文通过客观指标和主观听测试展示了模型的性能,并在附带网站上提供了大量示例。该模型的亮点包括可控性、高质量音频生成、推理速度和内存使用的显著改进。此外,该模型还具有广泛的适用性和可扩展性。
- 近期的相关研究包括:1)WaveNet和Magenta等音乐生成模型;2)GAN和VAE等深度生成模型。
沙发等你来抢
去评论
评论
沙发等你来抢