DreamWalk: Style Space Exploration using Diffusion Guidance

2024年04月04日
  • 简介
    文本条件扩散模型能够生成令人印象深刻的图像,但在精细控制方面存在不足。与像Photoshop这样的直接编辑工具不同,文本条件模型需要艺术家执行“提示工程”,构建特殊的文本句子来控制输出图像中特定主题的风格或数量。我们的目标是提供对由提示指定的风格和内容进行细粒度控制,例如调整图像不同区域中风格的强度(图1)。我们的方法是将文本提示分解为概念元素,并在单个扩散过程中为每个元素应用单独的指导项。我们引入指导比例函数来控制何时在扩散过程中以及在图像中何处进行干预。由于该方法仅基于调整扩散指导,因此不需要微调或操作扩散模型神经网络的内部层,并且可以与LoRA或DreamBooth训练的模型一起使用(图2)。项目页面:https://mshu1.github.io/dreamwalk.github.io/
  • 图表
  • 解决问题
    论文提出了一种通过分解文本提示并在单个扩散过程中应用单独的指导项来提供对图像风格和内容的细粒度控制的方法,以解决文本条件扩散模型在精细控制方面的不足问题。
  • 关键思路
    将文本提示分解为概念元素,并为每个元素应用单独的指导项,使用指导比例函数来控制何时和何处干预扩散过程,从而提供对图像风格和内容的细粒度控制。
  • 其它亮点
    文本条件扩散模型不需要调整或操作扩散模型神经网络的内部层,可以与LoRA或DreamBooth训练的模型结合使用。
  • 相关研究
    最近的相关研究包括:1)LoRA: Latent Optimal Transport Routing for Deep Diffusion Models,2)DreamBooth: Learning to Hallucinate Face Images via Component-wise Synthesis of Prior Networks,3)Diffusion Models Beat GANs on Image Synthesis,4)Generative Models: A Comparative Review
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论