- 简介Singing Accompaniment Generation (SAG)是生成伴唱音乐以陪衬输入人声的关键技术,对于开发人工智能和人类共创的艺术创作系统至关重要。目前最先进的方法SingSong利用多阶段自回归(AR)模型进行SAG,但由于它递归地生成语义和声学标记,所以速度极慢,不适用于实时应用。本文旨在开发一种快速的SAG方法,能够创建高质量、连贯的伴奏。我们开发了一个非AR扩散基础框架,通过仔细设计从声音信号中推断出的条件,直接生成目标伴奏的Mel频谱图。通过扩散和Mel频谱图建模,所提出的方法显著简化了基于AR标记的SingSong框架,并大大加速了生成过程。我们还设计了语义投影、先验投影块以及一组损失函数,以确保生成的伴奏与人声信号具有语义和节奏的连贯性。通过大量的实验研究,我们证明了所提出的方法可以生成比SingSong更好的样本,并且至少加速了30倍。音频样本和代码可在https://fastsag.github.io/上获得。
-
- 图表
- 解决问题论文旨在开发一种快速的歌曲伴奏生成方法,以便于实时应用,同时保证生成的伴奏质量和连贯性。
- 关键思路论文提出了一种基于扩散和Mel频谱建模的非自回归框架,通过设计从人声信号中推断出的条件,直接生成目标伴奏的Mel频谱。同时,设计了语义投影、先验投影块以及一系列损失函数,以确保生成的伴奏与人声信号具有语义和节奏的连贯性。
- 其它亮点论文通过实验研究表明,相比于目前最先进的自回归模型SingSong,该方法可以生成更好的样本,并且生成速度至少加快30倍。论文提供了音频样本和开源代码。
- 最近在这个领域中,还有一些相关研究,如WaveNet、Magenta等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流