港科大、南理工、复旦等｜DeepRapper：带有韵律和节奏建模的神经说唱生成

简介：说唱生成，旨在制作歌词和相应的歌唱节拍，需要对韵律和节奏进行建模。以前的

专注于押韵的说唱生成作品歌词但忽略了节奏节拍，这是对说唱表演很重要。在本文中，我们开发了 DeepRapper，一个基于 Transformer 的可以模拟两者的说唱生成系统韵律和节奏。由于没有可用的有节奏节拍的说唱数据集，我们开发了一个数据挖掘管道来收集大规模的说唱数据集，其中包括大量具有对齐歌词和节奏节拍的说唱歌曲。其次，我们设计了一个基于Transformer 的自回归语言模型仔细模拟韵律和节奏。具体来说，我们用押韵表示和约束以相反的顺序生成歌词用于韵律增强并在歌词中插入节拍符号以进行节奏/节拍建模。至据我们所知，DeepRapper 是第一个同时生成韵律和说唱的系统节奏。客观和主观评估都表明DeepRapper 生成带有韵律的创意和高品质说唱节奏。