Masked Audio Generation using a Single Non-Autoregressive Transformer

2024年01月09日
  • 简介
    我们介绍了MAGNeT,这是一种遮蔽生成序列建模方法,直接作用于几个音频令牌流。与之前的工作不同,MAGNeT由单阶段的非自回归变压器组成。在训练期间,我们预测从遮蔽调度器获得的遮蔽令牌范围,而在推理期间,我们逐步使用几个解码步骤构建输出序列。为了进一步提高生成音频的质量,我们引入了一种新颖的重新评分方法,在其中,我们利用外部预训练模型对MAGNeT的预测进行重新评分和排名,然后用于后续的解码步骤。最后,我们探索了MAGNeT的混合版本,在其中,我们融合了自回归和非自回归模型,以自回归方式生成前几秒,而其余序列则以并行方式解码。我们展示了MAGNeT在文本到音乐和文本到音频生成任务中的效率,并进行了广泛的实证评估,考虑了客观指标和人类研究。所提出的方法与评估基线相当,同时速度显著更快(比自回归基线快7倍)。通过消融研究和分析,我们阐明了组成MAGNeT的每个组件的重要性,同时指出了自回归和非自回归建模之间的权衡,考虑到延迟,吞吐量和生成质量。我们的演示页面https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT提供了样本。
  • 图表
  • 解决问题
    论文旨在解决文本到音乐和音频生成的问题,通过提出MAGNeT方法,旨在提高生成音频的质量和效率。
  • 关键思路
    MAGNeT是一个单阶段的非自回归变压器,通过预测从掩码调度器获得的掩码标记的跨度来进行训练,而在推断过程中,我们使用几个解码步骤逐渐构建输出序列。论文还提出了一种新颖的重评分方法,利用外部预训练模型对MAGNeT的预测进行重评分和排序,以用于后续解码步骤。此外,论文还探索了MAGNeT的混合版本,其中在自回归方式下生成前几秒钟,而其余序列在并行解码的方式下生成。
  • 其它亮点
    论文使用了文本到音乐和音频生成任务来评估MAGNeT方法,考虑了客观指标和人类研究。论文还提供了样本和演示页面,并展示了MAGNeT方法相对于基线方法的优势,速度快7倍。此外,论文还进行了消融研究和分析,阐明了MAGNeT各个组成部分的重要性,并指出了自回归和非自回归建模之间的权衡,考虑了延迟、吞吐量和生成质量。
  • 相关研究
    最近的相关研究包括使用自回归模型进行音频生成,如WaveNet和SampleRNN,以及使用非自回归模型进行音频生成的方法,如ParallelWaveGAN和MelGAN。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问