- 简介人类的视觉想象通常始于类比或草图。例如,给定一张女孩在建筑物前弹吉他的图像,人们可以类比地想象如果钢铁侠在埃及金字塔前弹吉他会是什么样子。然而,视觉条件可能与文本提示所指示的想象结果不完全一致,现有的布局可控的文本到图像(T2I)生成模型容易产生明显的伪影,以解决这个问题,我们提出了一种新的T2I生成方法,称为SmartControl,旨在修改粗略的视觉条件以适应文本提示。我们SmartControl的关键思想是放宽与文本提示冲突的区域的视觉条件。具体而言,我们设计了一个控制尺度预测器(CSP)来识别冲突区域并预测局部控制尺度,同时构建了一个具有文本提示和粗略视觉条件的数据集来训练CSP。值得注意的是,即使训练样本数量有限(例如1000-2000个),我们的SmartControl也能很好地推广到看不见的对象。对四种典型视觉条件类型的广泛实验清楚地显示了我们的SmartControl对抗最先进技术的功效。源代码、预训练模型和数据集可在https://github.com/liuxiaoyu1104/SmartControl上获得。
- 图表
- 解决问题该论文旨在解决文本到图像生成中的可控布局问题,即如何根据文本提示修改粗略的视觉条件以适应文本提示。
- 关键思路该论文提出了一种名为SmartControl的新型文本到图像生成方法,其关键思路是通过放宽与文本提示冲突的区域的视觉条件来实现可控布局。
- 其它亮点该论文的亮点包括:使用控制比例预测器(CSP)来识别冲突区域和预测局部控制比例;构建包含文本提示和粗略视觉条件的数据集来训练CSP;即使只有有限数量的训练样本,SmartControl也可以很好地推广到未见过的对象;在四种典型的视觉条件类型上进行了广泛的实验,明确表明SmartControl相对于现有技术的有效性。
- 与该论文相关的最近研究包括:StackGAN、AttnGAN、DM-GAN等。
沙发等你来抢
去评论
评论
沙发等你来抢