Masked Audio Generation using a Single Non-Autoregressive Transformer

2024年01月09日
  • 简介
    我们介绍了MAGNeT,这是一种掩码生成序列建模方法,可直接作用于几个音频令牌流。与以前的工作不同,MAGNeT由单阶段的非自回归变压器组成。在训练期间,我们预测由掩码调度程序获得的掩码令牌跨度,而在推理期间,我们逐步使用几个解码步骤构建输出序列。为了进一步提高生成音频的质量,我们引入了一种新颖的重评分方法,其中我们利用外部预训练模型对MAGNeT的预测进行重评分和排名,然后用于后续的解码步骤。最后,我们探索了MAGNeT的混合版本,在这个版本中,我们将自回归和非自回归模型融合在一起,以自回归的方式生成前几秒钟,而其余序列则以并行方式解码。我们展示了MAGNeT在文本到音乐和文本到音频生成任务中的效率,并进行了广泛的实证评估,考虑了客观指标和人类研究。所提出的方法与评估的基线相当,同时速度显著提高(比自回归基线快7倍)。通过消融研究和分析,我们阐明了组成MAGNeT的每个组件的重要性,同时指出了自回归和非自回归建模之间的权衡,考虑了延迟、吞吐量和生成质量。我们的演示页面https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT提供了样本。
  • 图表
  • 解决问题
    论文旨在提出一种新的生成序列模型方法MAGNeT,解决多流音频令牌生成的问题。同时,论文还探讨了自回归和非自回归建模之间的权衡,考虑延迟、吞吐量和生成质量等因素。
  • 关键思路
    MAGNeT是由单级非自回归变压器组成的遮蔽生成序列建模方法。在训练过程中,使用遮蔽调度器预测遮蔽令牌的跨度,在推理过程中,使用多个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,论文提出了一种新的重新评分方法,利用外部预训练模型重新评分和排名MAGNeT的预测结果。最后,论文探讨了MAGNeT的混合版本,其中我们融合了自回归和非自回归模型,以自回归方式生成前几秒钟,而其余序列则并行解码。
  • 其它亮点
    论文在文本到音乐和文本到音频生成任务中展示了MAGNeT的效率,并进行了广泛的实证评估,考虑了客观指标和人类研究。该方法与评估基线相当,同时速度显著提高(比自回归基线快7倍)。通过消融研究和分析,论文阐明了MAGNeT各组成部分的重要性,并指出了自回归和非自回归建模之间的权衡,考虑到延迟、吞吐量和生成质量等因素。论文提供了演示页面和样本。
  • 相关研究
    近期在该领域的相关研究包括:1. WaveNet: A Generative Model for Raw Audio,2. Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram,3. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论