- 简介本文介绍了一种可控的文本到图像生成方法,该方法可以根据特定条件合成包含文本和物体的图像,常用于生成表情符号和海报。在可控文本到图像生成中,视觉文本渲染和布局生成任务很受欢迎。然而,这些任务通常都只关注单一模态的生成或渲染,导致各自的方法之间存在未被弥合的差距。因此,本文将文本渲染和布局生成任务合并成一个任务:布局可控的文本-物体合成(LTOS)任务,旨在根据预定义的物体布局和文本内容合成包含物体和视觉文本的图像。由于现有数据集不适用于LTOS任务,因此我们构建了一个包含详细对齐的视觉文本和物体信息标签的布局感知文本-物体合成数据集。基于该数据集,我们提出了一种布局可控的文本-物体自适应融合(TOF)框架,可以生成具有清晰易读的视觉文本和逼真物体的图像。我们构建了一个视觉文本渲染模块来合成文本,并使用一个物体布局控制模块来生成物体,同时将这两个模块集成在一起,以和谐地生成和集成文本内容和物体。为了更好地整合图像和文本,我们提出了一个自适应交叉注意力融合模块,帮助图像生成更多地关注重要的文本信息。在这样的融合模块中,我们使用一个自适应可学习因子来灵活地控制交叉注意力输出对图像生成的影响。实验结果表明,我们的方法在LTOS、文本渲染和布局生成任务中均优于现有技术,可以实现和谐的视觉文本渲染和物体生成。
-
- 图表
- 解决问题本文旨在解决文本与图像的融合问题,提出了一种布局可控的文本-物体综合(LTOS)任务,通过预定义物体布局和文本内容来合成图像中的物体和文本。
- 关键思路本文将文本渲染和布局到图像生成任务结合成一个任务,提出了一种文本-物体自适应融合(TOF)框架,该框架通过构建可学习的自适应交叉注意力融合模块来实现文本和图像的融合。
- 其它亮点实验结果表明,该方法在LTOS、文本渲染和布局到图像生成任务中均优于现有的方法,能够实现文本和物体的和谐融合。作者构建了一个布局感知的文本-物体综合数据集,并提供了开源代码。
- 相关研究包括:1.《A Neural Algorithm of Artistic Style》;2.《Generative Adversarial Nets》;3.《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流