谷歌｜SoundStorm：高效、非自回归音频生成模型

我们介绍了SoundStorm，一种高效、非自回归音频生成模型。SoundStorm接收AudioLM的语义标记作为输入，依靠双向注意和基于置信度的并行解码生成神经音频编解码器的标记。

与AudioLM的自回归生成方法相比，我们的模型生成的音频质量相同，在语音和声学条件下具有更高的一致性，同时速度快两个数量级。SoundStorm在TPU-v4上生成30秒的音频只需0.5秒。我们通过合成高质量、自然的对话片段，演示了我们的模型将音频生成扩展到更长序列的能力。

内容中包含的图片若涉及版权问题，请及时与我们联系删除