AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining
解决问题: 该论文旨在提出一种框架,通过同一种学习方法为语音、音乐和音效生成设计模型,从而实现音频生成的统一视角。同时,该论文也试图解决为不同类型音频生成设计模型时需要考虑特定目标和偏见的问题。这是一个新问题。
关键思路: 该论文提出了一种名为“语音语言(LOA)”的音频通用表示法,可以将任何音频转换为LOA。该框架通过使用自监督预训练模型AudioMAE,将任何模态转换为LOA,并使用GPT-2模型进行生成过程。在LOA的条件下,使用潜在扩散模型进行自监督音频生成学习。相比当前领域的研究,该论文的思路具有新意。
其他亮点: 该论文的实验结果显示,在文本到音频、文本到音乐和文本到语音的主要基准测试中,该框架实现了新的最先进或具有竞争性的性能。该论文提出的框架具有上下文学习能力和可重复使用的自监督预训练AudioMAE和潜在扩散模型。该论文的代码和演示可在https://audioldm.github.io/audioldm2上获得。这些工作值得进一步深入研究。
关于作者: 论文的主要作者来自清华大学、伯明翰城市大学和英国萨里大学,其中Qiuqiang Kong和Mark D. Plumbley都是音频信号处理领域的专家。他们之前的代表作包括“PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition”和“Learning to Separate Multiple Sound Sources with Conditional Time-Frequency Masks”。
相关研究: 最近的其他相关研究包括“MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms with Large Timbre Spaces”(作者:Kazuhiro Kobayashi等,机构:东京大学)、“A Universal Music Translation Network”(作者:Zeyu Jin等,机构:华盛顿大学)和“Unsupervised Singing Voice Conversion”(作者:Yi-Chiao Wu等,机构:台湾国立清华大学)。
论文摘要:本文提出了一个框架,利用相同的学习方法生成语音、音乐和音效。虽然不同类型的音频生成有共同之处,但为每种类型设计模型需要仔细考虑特定的目标和偏差,这些偏差可能与其他类型显著不同。为了使我们更接近音频生成的统一视角,本文提出了一个框架,利用自监督预训练模型AudioMAE将任何音频转换为称为音频语言(LOA)的通用音频表示形式。在生成过程中,我们使用GPT-2模型将任何形式的音频转换为LOA,并使用以LOA为条件的潜在扩散模型进行自监督音频生成学习。该框架自然带来了诸如上下文学习能力和可重用的自监督预训练AudioMAE和潜在扩散模型等优点。在文本到音频、文本到音乐和文本到语音的主要基准测试中,实验表明本文方法的性能达到了新的最先进水平或竞争水平。我们的演示和代码可在https://audioldm.github.io/audioldm2上获得。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢