微软提出AUDIT：用潜伏扩散模型按照指令进行音频编辑

标题：AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models

作者：Yuancheng Wang, Zeqian Ju, Xu Tan, Lei He, Zhizheng Wu, Jiang Bian, Sheng Zhao

[Microsoft & The Chinese University of Hong Kong]

简介：

音频编辑适用于多种用途，如添加背景音效、替换乐器和修复受损音频。最近，一些基于扩散的方法通过使用以输出音频的文本描述为条件的扩散和去噪过程，实现了零次的音频编辑。然而，这些方法仍然存在一些问题：1）它们没有经过编辑任务的训练，不能确保良好的编辑效果；2）它们可能错误地修改不需要编辑的音频片段；3）它们需要完整的输出音频描述，这在实际场景中并不总是可用或必要。

在这项工作中，我们提出了AUDIT，一个基于潜在扩散模型的指令引导的音频编辑模型。具体来说，AUDIT有三个主要的设计特点： 1）我们为不同的音频编辑任务构建了三联体训练数据（指令、输入音频、输出音频），并以指令和输入（待编辑）音频为条件训练扩散模型，生成输出（已编辑）音频；2）它可以通过比较输入和输出音频的差异，自动学习只修改需要编辑的片段；3）它只需要编辑指令，而不需要完整的目标音频描述作为文本输入。AUDIT在几个音频编辑任务（如添加、删除、替换、内画、超分辨率）的客观和主观指标上都取得了最先进的结果。

代码：

https://arxiv.org/pdf/2304.00830.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

微软提出AUDIT：用潜伏扩散模型按照指令进行音频编辑

评论列表

评论