音频是我们生活中必不可少的一部分,但创作它通常需要专业知识和耗费时间。过去一年,研究社区通过采用更强大的生成模型和扩展数据等方法,在单一模态(语音、声音或音乐)的大规模音频生成模型的性能方面取得了巨大进展。然而,这些模型在多个方面缺乏可控性:语音生成模型不能根据文本描述合成新的风格,并且在领域覆盖范围(如户外环境)上受到限制;声音生成模型仅基于“人说话”等描述提供粗略的控制,并且只会生成含糊不清的人声。本文提出了Audiobox,这是一个基于流匹配的统一模型,能够生成各种音频模态。我们设计了基于描述和基于示例的提示来增强可控性,并统一语音和声音生成范式。在生成语音时,我们允许对转录、声音和其他音频风格进行独立控制。为了提高模型在有限标签下的泛化能力,我们采用自监督填充目标在大量未标记的音频上进行预训练。Audiobox在语音和声音生成方面取得了新的基准(在Librispeech的零样本TTS上的相似度为0.745;在AudioCaps上的文本到声音的FAD为0.77),并开辟了使用新的声音和声学风格生成音频的新方法。我们进一步集成了Bespoke Solvers,与流匹配的默认ODE求解器相比,可以将生成速度提高25倍以上,而且在多个任务上性能不会有所损失。我们的演示可在https://audiobox.metademolab.com/上获得。
提问交流