Efficient Autoregressive Audio Modeling via Next-Scale Prediction

2024年08月16日
  • 简介
    随着生成模型(如扩散模型(DMs)和自回归(AR)模型)的不断进步,音频生成已经取得了显著的进展。然而,由于音频的序列长度通常较长,因此音频生成的效率仍然是一个需要解决的重要问题,尤其是对于被纳入大型语言模型(LLMs)中的AR模型而言。在本文中,我们分析了音频记号化的记号长度,并提出了一种新颖的规模级音频记号化器(SAT),并改进了残差量化。基于SAT,我们进一步提出了一种规模级声学自回归(AAR)建模框架,将下一个记号的AR预测转移到下一个规模的AR预测,从而显著降低了训练成本和推理时间。为了验证所提出方法的有效性,我们全面分析了设计选择,并展示了所提出的AAR框架在AudioSet基准测试中相对于基线实现了显著的35倍更快的推理速度和+1.33的Fr\'echet音频距离(FAD)。代码: \url{https://github.com/qiuk2/AAR}。
  • 图表
  • 解决问题
    提高音频生成效率是论文试图解决的问题。特别是针对大型语言模型中使用的自回归模型,提高效率尤为重要。
  • 关键思路
    论文提出了一种新的音频分词方法(SAT)和一个基于SAT的新型自回归模型框架(AAR),通过将下一个令牌的自回归预测转换为下一个尺度的预测,显著降低了训练成本和推理时间。
  • 其它亮点
    论文通过使用AudioSet数据集进行了广泛的实验,证明了SAT和AAR的有效性。SAT不仅提高了音频生成效率,而且还改进了残差量化。AAR框架在推理速度和FAD指标方面都优于基线模型,并且提供了开源代码。
  • 相关研究
    最近在音频生成领域,也出现了一些相关的研究。例如,一篇名为“DiffWave”的论文提出了一种基于扩散模型的音频生成方法。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论