Prompt-guided Precise Audio Editing with Diffusion Models

简介

音频编辑涉及通过精确控制对音频内容进行任意操作。虽然文本引导扩散模型在文本到音频生成方面取得了重大进展，但它们仍然面临着在音频轨道内找到灵活和精确修改目标事件的挑战。我们提出了一种新的方法，称为PPAE，它作为扩散模型的通用模块，实现了精确的音频编辑。编辑仅基于输入的文本提示，完全无需训练。我们利用扩散模型的交叉注意力映射来促进准确的局部编辑，并采用分层局部-全局流水线来确保更平滑的编辑过程。实验结果突出了我们的方法在各种编辑任务中的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决音频编辑中的灵活性和精度问题，通过提出一种基于输入文本提示的训练免费的方法，实现精确的本地编辑。
关键思路

论文提出了一种新颖的方法PPAE，作为扩散模型的通用模块，利用交叉注意力图来促进准确的本地编辑，并采用分层的本地-全局管道来确保更平滑的编辑过程。
其它亮点

实验结果表明，该方法在各种编辑任务中的有效性。论文还使用了哪些数据集，没有提到是否开源代码，值得进一步研究。
相关研究

最近的相关研究包括使用类似的扩散模型进行文本到语音生成的研究，如DDPM、DALL-E等。