InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation

2024年06月30日
  • 简介
    风格转移是一种创新的过程,旨在创建一幅保持原始本质的图像,并融合另一种视觉风格。虽然扩散模型在个性化主题驱动或风格驱动应用方面表现出了令人印象深刻的生成能力,但现有的最先进方法仍然在实现内容保留和风格增强之间的无缝平衡方面遇到困难。例如,增强风格的影响往往会破坏内容的结构完整性。为了解决这些挑战,我们将风格转移任务分解为三个核心元素:1)风格,关注图像的美学特征;2)空间结构,涉及视觉元素的几何排列和组合;和3)语义内容,捕捉图像的概念意义。在这些原则的指导下,我们介绍了InstantStyle-Plus,这是一种优先保持原始内容完整性并无缝融合目标风格的方法。具体而言,我们的方法通过一个高效、轻量级的过程,利用先进的InstantStyle框架实现风格注入。为了加强内容保留,我们使用反转的内容潜在噪声和多功能的插入式ControlNet来保留原始图像的内在布局。我们还结合了全局语义适配器来增强语义内容的保真度。为了防止风格信息的稀释,我们采用风格提取器作为鉴别器,提供补充的风格指导。代码可在https://github.com/instantX-research/InstantStyle-Plus上获得。
  • 图表
  • 解决问题
    本论文试图解决图像风格迁移中内容保留和风格增强之间平衡的问题。
  • 关键思路
    本论文将图像风格迁移任务分解为三个核心元素:风格、空间结构和语义内容,并提出了InstantStyle-Plus方法,通过轻量级的过程实现风格注入,并利用ControlNet保留原始图像的内在布局,同时使用全局语义适配器来提高语义内容的保真度,使用风格提取器作为辅助判别器提供补充风格指导。
  • 其它亮点
    实验结果表明,InstantStyle-Plus方法在保留内容和增强风格之间达到了平衡,并且在多个数据集上都取得了优异的结果。代码已在GitHub上开源。
  • 相关研究
    在图像风格迁移领域,最近的相关研究包括AdaIN、WCT、MUNIT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论