- 简介本文展示了声谱图是声音的二维表示,与我们视觉世界中的图像非常不同。当自然图像被播放成声谱图时,会产生不自然的声音。我们展示了可以合成同时看起来像自然图像和听起来像自然音频的声谱图。我们将这些声谱图称为图像声音。我们的方法简单而零样本,利用在共享潜在空间中操作的预训练文本到图像和文本到声谱图扩散模型。在反向过程中,我们使用音频和图像扩散模型并行去噪潜在空间,从而得到可能在两个模型下的样本。通过定量评估和感知研究,我们发现我们的方法成功生成了与所需音频提示对齐并且还具有所需图像提示的声谱图。请参见我们的项目页面以获取视频结果:https://ificl.github.io/images-that-sound/
- 图表
- 解决问题本论文旨在解决如何合成既具有自然图像外观又具有自然音频声音的光谱图的问题。
- 关键思路本论文提出了一种简单的零样本方法,利用预训练的文本到图像和文本到光谱扩散模型,在共享的潜在空间中操作。通过并行使用音频和图像扩散模型对噪声潜变量进行去噪,生成同时满足音频和图像条件的光谱图。
- 其它亮点本论文的实验结果表明,该方法成功地生成了与所需音频提示相一致的光谱图,同时具有所需图像提示的视觉外观。该论文还提供了视频结果和开放源代码。
- 在这个领域中,最近的相关研究包括“Generative Adversarial Networks for Extreme Learned Image Compression”和“Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild”。


提问交流