DiffStyler: Diffusion-based Localized Image Style Transfer

简介

图像风格转移旨在赋予数字图像具有特定风格目标的独特属性，如颜色、笔触、形状，同时保留内容的语义完整性。尽管任意风格转移方法有所进展，但仍存在一个普遍的挑战，即内容语义和风格属性之间的微妙平衡。最近大规模文本到图像扩散模型的发展引领了前所未有的综合能力，但代价是依赖于广泛且常常不精确的文本描述来描述艺术风格。为了解决这些限制，本文介绍了DiffStyler，一种新颖的方法，可以促进高效和精确的任意图像风格转移。DiffStyler利用基于文本到图像稳定扩散模型的LoRA来封装风格目标的本质。这种方法，结合策略性的跨LoRA特征和注意力注入，指导风格转移过程。我们方法的基础是观察到LoRA保持UNet的空间特征一致性，这一发现进一步启发了遮罩逐像素风格转移技术的开发。这种技术利用预训练的FastSAM模型提取的遮罩，利用遮罩提示在去噪过程中促进特征融合，从而实现保留原始图像未受影响区域的局部风格转移。此外，我们的方法通过使用相应的遮罩来容纳多个风格目标。通过广泛的实验，我们证明DiffStyler在实现内容保护和风格整合之间更和谐的平衡方面超过了以前的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决图像风格迁移中内容和风格平衡的问题，并提出一种新的方法。
关键思路

DiffStyler方法利用文本到图像的稳定扩散模型LoRA来表达风格，结合交叉LoRA特征和注意力注入来指导风格迁移过程。同时，利用预训练的FastSAM模型提取掩码，实现局部风格迁移。
其它亮点

DiffStyler方法在实验中表现出更好的内容保留和风格融合平衡，并支持多个风格目标。此外，论文还提供了实验细节和使用的数据集，并开源了代码。
相关研究

近期相关研究包括Arbitrary Style Transfer with Style-Attentional Networks和A Style-Based Generator Architecture for Generative Adversarial Networks等。

DiffStyler: Diffusion-based Localized Image Style Transfer

提问交流

提问交流