- 简介我们正在见证一场条件图像合成的革命,最近大规模文本到图像生成方法的成功也开启了使用多模态输入控制生成和编辑过程的新机会。虽然使用深度、素描和其他图像等线索进行空间控制已经引起了很多研究,但我们认为另一种同样有效的模态是音频,因为声音和视觉是人类感知的两个主要组成部分。因此,我们提出了一种方法,在大规模图像扩散模型中实现音频条件。我们的方法首先将从音频剪辑中获得的特征映射到可以注入扩散模型的令牌中,类似于文本令牌。我们引入了额外的音频-图像交叉注意层,我们在冻结扩散模型的原始层的权重的同时微调这些层。除了音频条件的图像生成外,我们的方法还可以与基于扩散的编辑方法结合使用,以实现音频条件的图像编辑。我们在广泛的音频和图像数据集上演示了我们的方法。我们与最近的方法进行了广泛的比较,并展示了有利的性能。
-
- 图表
- 解决问题论文旨在探索在大规模图像扩散模型中实现音频条件生成的方法,以及在音频条件下进行图像编辑的可能性。这是一个新的问题,因为先前的研究主要集中在使用深度、素描和其他图像来进行空间控制。
- 关键思路论文的关键思路是将从音频剪辑中获得的特征映射到可以注入扩散模型的令牌中,类似于文本令牌。同时,引入了额外的音频-图像交叉注意层,这些层在冻结扩散模型的原始层的权重的同时进行微调。这种方法可以实现音频条件图像生成和编辑。
- 其它亮点论文在广泛的音频和图像数据集上进行了实验,并与最近的方法进行了比较,表现良好。论文的亮点包括使用音频作为调节图像生成和编辑的新模态,以及引入音频-图像交叉注意层来实现音频条件图像生成和编辑。论文还提供了开源代码。
- 最近的相关研究包括使用深度图像、sketch和其他图像进行空间控制的方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流