Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation

Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38(3), 1824-1832
2024年07月03日
  • 简介
    最近,大规模的文本到图像(T2I)扩散模型已经成为图像到图像转换(I2I)的有力工具,通过用户提供的文本提示实现开放域图像转换。本文提出了一种频率控制扩散模型(FCDiffusion),这是一种基于扩散的端到端框架,从频域的角度提供了一种新颖的解决方案,用于文本引导的I2I。在我们的框架的核心是一个基于离散余弦变换的特征空间频域滤波模块,它在DCT域中过滤源图像的潜在特征,产生不同DCT频谱带的过滤图像特征作为预训练的潜在扩散模型的不同控制信号。我们揭示了不同DCT频谱带的控制信号以不同的相关性(例如,风格、结构、布局、轮廓等)桥接源图像和T2I生成图像,从而实现了多功能I2I应用,强调不同的I2I相关性,包括风格引导的内容创建、图像语义操作、图像场景转换和图像风格转换。与相关方法不同,FCDiffusion建立了一个统一的文本引导I2I框架,适用于各种图像翻译任务,只需在推理时在不同的频率控制分支之间进行切换。我们的方法在定性和定量上通过了广泛的实验,证明了文本引导I2I的有效性和优越性。代码可在https://github.com/XiangGao1102/FCDiffusion上公开获取。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提出一种新的文本引导图像翻译框架,以从频域角度解决图像风格、结构、布局、轮廓等不同相关性的翻译问题。
  • 关键思路
    本文提出了一种基于离散余弦变换的特征空间频域滤波模块,将源图像的潜在特征在DCT域中进行滤波,并产生带有不同DCT频谱带的滤波图像特征,作为预训练的潜在扩散模型的不同控制信号。
  • 其它亮点
    本文提出的频率控制扩散模型(FCDiffusion)是一种端到端的基于扩散的框架,可通过在推理时在不同的频率控制分支之间切换,适用于各种图像翻译任务。实验结果表明,FCDiffusion在文本引导下的图像翻译任务中具有优越性能。
  • 相关研究
    最近相关的研究包括:1. CLIP-guided Diffusion for Image Manipulation; 2. Generative Adversarial Networks (GANs) for image-to-image translation; 3. Text-to-Image (T2I) models for image synthesis.
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问