Visual Text Generation in the Wild

简介

最近，随着生成模型的快速发展，视觉文本生成领域取得了显著进展。然而，在实际场景中渲染高质量的文本图像仍然具有挑战性，因为需要满足三个关键标准：（1）保真度：生成的文本图像应该是照片般逼真的，并且内容应该与给定条件中指定的内容相同；（2）合理性：生成的文本的区域和内容应该与场景相一致；（3）实用性：生成的文本图像可以促进相关任务（例如文本检测和识别）。经过调查，我们发现现有的方法，无论是基于渲染还是扩散的，都很难同时满足所有这些方面，从而限制了它们的应用范围。因此，我们在本文中提出了一种视觉文本生成器（称为SceneVTG），它可以在野外生成高质量的文本图像。SceneVTG采用两阶段范式，利用多模态大语言模型在多个尺度和级别上推荐合理的文本区域和内容，这些区域和内容作为条件被条件扩散模型用于生成文本图像。广泛的实验表明，所提出的SceneVTG在保真度和合理性方面显著优于传统的基于渲染的方法和最近的基于扩散的方法。此外，生成的图像在涉及文本检测和文本识别的任务中提供了更高的实用性。代码和数据集可在AdvancedLiterateMachinery获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种可在真实场景下生成高质量文本图像的方法。该方法需要满足三个关键标准：保真度、合理性和实用性。
关键思路

提出了一种名为SceneVTG的文本图像生成器，采用两阶段范式。第一阶段使用多模态大语言模型推荐合理的文本区域和内容，第二阶段使用条件扩散模型生成文本图像。
其它亮点

SceneVTG在保真度和合理性方面显著优于传统的基于渲染和最近的基于扩散的方法。生成的图像对于文本检测和文本识别等任务具有更高的实用性。研究中使用了开源数据集和代码。
相关研究

最近的相关研究包括：《Generative Adversarial Text to Image Synthesis》、《StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks》、《Improved Adversarial Systems for 3D Object Generation and Reconstruction》等。

Visual Text Generation in the Wild

提问交流

提问交流