FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion Models

2024年01月28日
  • 简介
    生成扩散模型的快速发展极大地推进了风格转移领域。然而,大多数基于扩散模型的当前风格转移方法通常涉及缓慢的迭代优化过程,例如模型微调和风格概念的文本反演。在本文中,我们介绍了一种创新的风格转移方法FreeStyle,它建立在一个预训练的大型扩散模型之上,不需要进一步的优化。此外,我们的方法只需通过所需风格的文本描述即可进行风格转移,无需使用风格图像。具体而言,我们提出了一个双流编码器和单流解码器架构,取代了扩散模型中的传统U-Net。在双流编码器中,两个不同的分支分别将内容图像和风格文本提示作为输入,实现内容和风格的解耦。在解码器中,我们进一步根据给定的内容图像和相应的风格文本提示调制来自双流的特征,以实现精确的风格转移。我们的实验结果表明,我们的方法在各种内容图像和风格文本提示上具有高质量的合成和保真度。代码和更多结果可在我们的项目网站上找到:https://freestylefreelunch.github.io/。
  • 图表
  • 解决问题
    本论文旨在提出一种创新的风格迁移方法,该方法基于预训练的大型扩散模型,无需进一步优化,并通过所需风格的文本描述实现风格迁移,从而解决当前风格迁移方法中需要进行缓慢迭代优化的问题。
  • 关键思路
    本文提出了一种双流编码器和单流解码器架构,用于实现内容和风格的解耦,并通过给定内容图像和相应的风格文本提示来进一步调制双流的特征,实现精确的风格迁移。
  • 其它亮点
    本文的亮点在于,提出了一种无需迭代优化的风格迁移方法,并且只需要文本描述即可进行风格迁移,消除了需要风格图像的必要性。实验结果表明,该方法在各种内容图像和风格文本提示下都具有高质量的合成和保真度。此外,该项目的代码和更多结果可在其项目网站上找到。
  • 相关研究
    目前,基于扩散模型的风格迁移方法通常涉及缓慢的迭代优化过程,例如模型微调和风格概念的文本反演。与之前的研究相比,本文提出的方法无需进行迭代优化,并且只需要文本描述即可进行风格迁移,这是一种新的思路。与此同时,最近的相关研究还包括基于神经网络的图像风格转换、基于GAN的风格迁移和基于元学习的风格迁移等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论