LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis

2024年07月15日
  • 简介
    潜在扩散模型在音频生成方面表现出有希望的结果,相较于传统方法有显著进展。然而,虽然在短音频剪辑中表现出色,但在扩展到更长的音频序列时,其性能面临挑战。这些挑战是由于模型的自我注意机制和主要在10秒剪辑上进行训练,这使得在没有适应的情况下扩展到更长的音频变得复杂。为了应对这些问题,我们引入了一种新的方法,LiteFocus,它增强了现有音频潜在扩散模型在长音频合成中的推理。观察到自我注意中的注意模式,我们采用了一种双稀疏形式进行注意力计算,称为同频焦点和跨频补偿,这在同频约束下削减了注意力计算,同时通过跨频补充增强了音频质量。LiteFocus在合成80秒音频剪辑时,通过基于扩散的TTA模型将推理时间显著减少了1.99倍,并且获得了改进的音频质量。
  • 图表
  • 解决问题
    解决问题:论文旨在提高长音频合成的质量和效率,解决现有音频潜在扩散模型在处理长音频时的挑战。
  • 关键思路
    关键思路:论文提出了一种名为LiteFocus的新方法,通过采用同频聚焦和跨频补偿的双重稀疏形式,增强了现有音频潜在扩散模型对长音频合成的推断能力,从而提高音频质量,同时减少推断时间。
  • 其它亮点
    亮点:LiteFocus方法在合成80秒音频片段时,相比于基于扩散的TTA模型,推断时间缩短了1.99倍,同时获得了更好的音频质量。论文还使用了多个数据集进行实验,并开源了代码。
  • 相关研究
    相关研究:最近的相关研究包括“MelNet”、“WaveGrad”和“Parallel WaveGAN”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论