- 简介文本引导扩散模型推动了音频生成的范式转变,促进了源音频适应特定文本提示的可行性。最近的进展引入了反演技术,如DDIM反演,用于零样本编辑,利用预训练的扩散模型进行音频修改。尽管如此,我们的调查揭示了DDIM反演在每个扩散步骤中存在误差积累,从而削弱了其功效。缺乏注意力控制也阻碍了音乐的精细操作。为了克服这些限制,我们介绍了“解耦反演”技术,旨在将扩散过程解耦为三个分支,从而放大它们的个体能力,实现精确编辑和保护。此外,我们提出了“协调注意力控制”框架,将相互自注意力和交叉注意力与附加的谐波分支统一起来,以实现目标音乐中所需的组成和结构信息。总之,这些创新组成了“解耦反演控制(DIC)”框架,实现了准确的音乐编辑,同时保障结构完整性。为了评估音频编辑的有效性,我们引入了“ZoME-Bench”,一个综合的音乐编辑基准测试,涵盖10个不同的编辑类别,共1,100个样本,既支持零样本又支持基于指令的音乐编辑任务。我们的方法在编辑保真度和必要内容保护方面表现出卓越的性能,优于当代最先进的反演技术。
- 图表
- 解决问题论文旨在解决音频生成中的文本引导问题,通过提出Disentangled Inversion技术和Harmonized Attention Control框架来解决DDIM inversion存在的误差积累和注意力控制不足的问题。
- 关键思路论文提出的Disentangled Inversion技术和Harmonized Attention Control框架可以将扩散过程分解成三个分支,从而实现精确编辑和结构保护,并且通过统一的自注意力和交叉注意力以及附加的谐波分支来实现所需的目标音乐的组合和结构信息。
- 其它亮点论文提出了Disentangled Inversion Control (DIC)框架,用于准确的音乐编辑,并保护结构完整性。为了评估音频编辑效果,论文提出了ZoME-Bench,一个包含1100个样本的综合音乐编辑基准,涵盖了10个不同的编辑类别,可用于零样本和基于指令的音乐编辑任务。实验结果表明,该方法在编辑保真度和重要内容保留方面表现出无与伦比的性能,优于现有的最先进的反演技术。
- 在这个领域中,最近的相关研究包括:DDIM inversion技术以及其他的音频生成技术,如WaveNet、MelGAN、HiFiGAN等。
沙发等你来抢
去评论
评论
沙发等你来抢