StyleMaster: Towards Flexible Stylized Image Generation with Diffusion Models

简介

Stylized Text-to-Image Generation (STIG)旨在根据文本提示和风格参考图像生成图像。本文提出了一种名为StyleMaster的新框架，利用预训练的Stable Diffusion (SD)，试图解决以往存在的风格不足和不一致语义等问题。该增强方法包括两个新模块，即多源风格嵌入器和动态注意力适配器。为了为SD提供更好的风格嵌入，我们提出了多源风格嵌入器，考虑了全局和本地级别的视觉信息以及文本信息，提供了既有补充风格相关知识又有语义相关知识。此外，为了在适配器容量和语义控制之间取得更好的平衡，我们应用了提出的动态注意力适配器，将适应权重根据风格嵌入动态计算到扩散UNet中。我们引入了两个目标函数来优化模型，同时使用去噪损失，可以进一步增强语义和风格的一致性。广泛的实验表明，StyleMaster优于现有方法，在成功保持文本提示的语义信息的同时呈现具有不同目标风格的图像。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决文本到图像生成中存在的风格不足和语义不一致的问题。
关键思路

本文提出了一个新的框架，名为StyleMaster，通过利用预训练的Stable Diffusion（SD）来实现多样化的图像生成。该框架包含两个新模块：多源风格嵌入器和动态注意力适配器，以提供更好的风格嵌入和更好的语义控制。
其它亮点

本文的实验结果表明，StyleMaster比现有方法更优秀，可以成功地生成具有不同风格的图像，并成功地保持了文本提示中的语义信息。本文还提出了两个目标函数来优化模型，同时使用去噪损失来进一步增强语义和风格的一致性。
相关研究

最近的相关研究包括：Generative Adversarial Networks (GANs)和Variational Autoencoders (VAEs)等。

StyleMaster: Towards Flexible Stylized Image Generation with Diffusion Models

提问交流

提问交流