Audiobox: Unified Audio Generation with Natural Language Prompts

向作者提问

NEW

简介

音频是我们生活中必不可少的一部分，但创作它通常需要专业知识和耗费时间。过去一年，研究社区通过采用更强大的生成模型和扩展数据等方法，在单一模态（语音、声音或音乐）的大规模音频生成模型的性能方面取得了巨大进展。然而，这些模型在多个方面缺乏可控性：语音生成模型不能根据文本描述合成新的风格，并且在领域覆盖范围（如户外环境）上受到限制；声音生成模型仅基于“人说话”等描述提供粗略的控制，并且只会生成含糊不清的人声。本文提出了Audiobox，这是一个基于流匹配的统一模型，能够生成各种音频模态。我们设计了基于描述和基于示例的提示来增强可控性，并统一语音和声音生成范式。在生成语音时，我们允许对转录、声音和其他音频风格进行独立控制。为了提高模型在有限标签下的泛化能力，我们采用自监督填充目标在大量未标记的音频上进行预训练。Audiobox在语音和声音生成方面取得了新的基准（在Librispeech的零样本TTS上的相似度为0.745；在AudioCaps上的文本到声音的FAD为0.77），并开辟了使用新的声音和声学风格生成音频的新方法。我们进一步集成了Bespoke Solvers，与流匹配的默认ODE求解器相比，可以将生成速度提高25倍以上，而且在多个任务上性能不会有所损失。我们的演示可在https://audiobox.metademolab.com/上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大规模音频生成模型在控制方面的不足，如语音生成模型无法根据文本描述生成新的风格，声音生成模型只能提供基于描述的粗略控制。
关键思路

本文提出了一种基于流匹配的统一模型Audiobox，可以生成各种音频模态，并设计了基于描述和基于示例的提示来增强可控性和统一语音和声音生成范例。
其它亮点

Audiobox在语音和声音生成方面创造了新的基准（例如Librispeech的零射击TTS相似度为0.745；AudioCaps的文本到声音的FAD为0.77），并解锁了使用新的人声和声学风格生成音频的新方法。论文还使用了自监督填充目标来提高模型的泛化性能，并集成了Bespoke Solvers来加速生成。
相关研究

近期在这个领域中的相关研究包括：《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》、《Neural Speech Synthesis with Transformer Network》、《Unsupervised Speech Representation Learning using WaveNet Autoencoders》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问