LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model

向作者提问

NEW

简介

尽管基于扩散的生成模型能够成功地生成高质量的图像，但先前的研究直接生成整个图像，无法提供针对物体的操作能力。为了支持更广泛的实际应用，如专业的平面设计和数字艺术，图像通常需要在多个层中创建和操作，以提供更大的灵活性和控制性。因此，在本文中，我们提出了一种名为LayerDiff的层协作扩散模型，专门设计用于文本引导的多层可组合图像合成。可组合图像由背景层、一组前景层和每个前景元素对应的掩码层组成。为了实现这一点，LayerDiff引入了一种基于层的生成范式，包括多个层协作注意力模块，以捕捉层间模式。具体而言，设计了一种层间注意力模块，以促进层间信息交换和学习，而文本引导的层内注意力模块则包含层特定提示，以指导每个层的特定内容生成。一个层特定提示增强模块更好地捕捉全局提示的详细文本线索。此外，自掩码引导采样策略进一步释放了模型生成多层图像的能力。我们还提出了一个流程，将现有的感知和生成模型集成起来，生成大量高质量的文本引导多层图像数据集。广泛的实验表明，我们的LayerDiff模型可以生成高质量的多层图像，其性能与传统的整体图像生成方法相当。此外，LayerDiff还支持更广泛的可控生成应用，包括层特定的图像编辑和样式转移。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决生成多层次、可组合的图像的问题。传统生成模型只能生成整张图片，而不能提供对象级别的操作能力，因此需要一种新的方法来支持更广泛的实际应用，如专业的平面设计和数字艺术。
关键思路

本文提出了一种名为LayerDiff的多层协作扩散模型，专门用于文本引导的多层可组合图像合成。该模型采用基于图层的生成范式，包括多个图层协作注意模块，以捕捉图层间的相互模式，并引入文本引导的内层注意模块，以指导每个图层的特定内容生成。此外，自掩膜引导采样策略进一步释放了模型生成多层次图像的能力。
其它亮点

本文还提出了一个整合现有感知和生成模型的流程，以生成大量高质量的、文本引导的、多层次的图像数据集。实验结果表明，LayerDiff模型可以生成高质量的多层次图像，并具有与传统整图生成方法相当的性能。此外，LayerDiff还使得更广泛的可控生成应用成为可能，包括图层特定的图像编辑和风格转移。
相关研究

在这个领域中，最近的相关研究包括：《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》、《Semantic Image Synthesis with Spatially-Adaptive Normalization》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问