LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model

2024年03月18日
  • 简介
    尽管基于扩散的生成模型能够成功地生成高质量的图像,但先前的研究直接生成整个图像,无法提供针对物体的操作能力。为了支持更广泛的实际应用,如专业的平面设计和数字艺术,图像通常需要在多个层中创建和操作,以提供更大的灵活性和控制性。因此,在本文中,我们提出了一种名为LayerDiff的层协作扩散模型,专门设计用于文本引导的多层可组合图像合成。可组合图像由背景层、一组前景层和每个前景元素对应的掩码层组成。为了实现这一点,LayerDiff引入了一种基于层的生成范式,包括多个层协作注意力模块,以捕捉层间模式。具体而言,设计了一种层间注意力模块,以促进层间信息交换和学习,而文本引导的层内注意力模块则包含层特定提示,以指导每个层的特定内容生成。一个层特定提示增强模块更好地捕捉全局提示的详细文本线索。此外,自掩码引导采样策略进一步释放了模型生成多层图像的能力。我们还提出了一个流程,将现有的感知和生成模型集成起来,生成大量高质量的文本引导多层图像数据集。广泛的实验表明,我们的LayerDiff模型可以生成高质量的多层图像,其性能与传统的整体图像生成方法相当。此外,LayerDiff还支持更广泛的可控生成应用,包括层特定的图像编辑和样式转移。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决生成多层次、可组合的图像的问题。传统生成模型只能生成整张图片,而不能提供对象级别的操作能力,因此需要一种新的方法来支持更广泛的实际应用,如专业的平面设计和数字艺术。
  • 关键思路
    本文提出了一种名为LayerDiff的多层协作扩散模型,专门用于文本引导的多层可组合图像合成。该模型采用基于图层的生成范式,包括多个图层协作注意模块,以捕捉图层间的相互模式,并引入文本引导的内层注意模块,以指导每个图层的特定内容生成。此外,自掩膜引导采样策略进一步释放了模型生成多层次图像的能力。
  • 其它亮点
    本文还提出了一个整合现有感知和生成模型的流程,以生成大量高质量的、文本引导的、多层次的图像数据集。实验结果表明,LayerDiff模型可以生成高质量的多层次图像,并具有与传统整图生成方法相当的性能。此外,LayerDiff还使得更广泛的可控生成应用成为可能,包括图层特定的图像编辑和风格转移。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》、《Semantic Image Synthesis with Spatially-Adaptive Normalization》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问