Lianghua HuangDi ChenYu LiuYujun ShenDeli ZhaoJingren Zhou

最近在大数据上学习的大规模生成模型能够合成令人难以置信的图像,但可控性有限。这项工作提供了一种新一代范式,允许灵活控制输出图像,例如空间布局和调色板,同时保持合成质量和模型创意。以构图为核心思想,我们首先将图像分解为代表性因素,然后训练一个以所有这些因素为重新组合输入的条件的扩散模型。在推理阶段,丰富的中间表示作为可组合元素发挥作用,从而为可定制的内容创建提供了巨大的设计空间(即与分解因子数量成指数成正比)。

 

值得注意的是,我们的方法(我们称之为作曲家)支持各种级别的条件,例如文本描述作为全局信息,深度图和草图作为本地指南,低级细节的彩色直方图等。除了提高可控性外,我们确认Composer是一个通用框架,无需再培训即可促进广泛的经典生成任务。将提供代码和型号。

论文地址:https://arxiv.org/abs/2302.09778

内容中包含的图片若涉及版权问题,请及时与我们联系删除