FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation

简介

Singing Accompaniment Generation (SAG)是生成伴唱音乐以陪衬输入人声的关键技术，对于开发人工智能和人类共创的艺术创作系统至关重要。目前最先进的方法SingSong利用多阶段自回归（AR）模型进行SAG，但由于它递归地生成语义和声学标记，所以速度极慢，不适用于实时应用。本文旨在开发一种快速的SAG方法，能够创建高质量、连贯的伴奏。我们开发了一个非AR扩散基础框架，通过仔细设计从声音信号中推断出的条件，直接生成目标伴奏的Mel频谱图。通过扩散和Mel频谱图建模，所提出的方法显著简化了基于AR标记的SingSong框架，并大大加速了生成过程。我们还设计了语义投影、先验投影块以及一组损失函数，以确保生成的伴奏与人声信号具有语义和节奏的连贯性。通过大量的实验研究，我们证明了所提出的方法可以生成比SingSong更好的样本，并且至少加速了30倍。音频样本和代码可在https://fastsag.github.io/上获得。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在开发一种快速的歌曲伴奏生成方法，以便于实时应用，同时保证生成的伴奏质量和连贯性。
关键思路

论文提出了一种基于扩散和Mel频谱建模的非自回归框架，通过设计从人声信号中推断出的条件，直接生成目标伴奏的Mel频谱。同时，设计了语义投影、先验投影块以及一系列损失函数，以确保生成的伴奏与人声信号具有语义和节奏的连贯性。
其它亮点

论文通过实验研究表明，相比于目前最先进的自回归模型SingSong，该方法可以生成更好的样本，并且生成速度至少加快30倍。论文提供了音频样本和开源代码。
相关研究

最近在这个领域中，还有一些相关研究，如WaveNet、Magenta等。

FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation

提问交流

提问交流