CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

简介

最近，文本到图像生成系统的进展主要是由扩散模型推动的。然而，单级文本到图像扩散模型仍然面临计算效率和图像细节的完善方面的挑战。为了解决这个问题，我们提出了CogView3，这是一个创新的级联框架，可以提高文本到图像扩散的性能。CogView3是第一个在文本到图像生成领域实现中继扩散的模型，通过首先创建低分辨率图像，然后应用基于中继的超分辨率来执行任务。这种方法不仅可以产生具有竞争力的文本到图像输出，而且大大降低了训练和推理成本。我们的实验结果表明，CogView3在人类评估中的表现比当前最先进的开源文本到图像扩散模型SDXL高77.0％，同时只需要大约1/2的推理时间。CogView3的精简变体在只利用SDXL推理时间1/10的情况下实现了可比较的性能。
作者讲解·4
- 讲解视频
- 相关报道(4)
图表
解决问题

论文旨在解决单阶段文本到图像扩散模型在计算效率和图像细节方面的挑战。作者提出了一种新的级联框架CogView3，通过实现relay扩散来执行任务，首先创建低分辨率图像，然后应用基于relay的超分辨率。该方法不仅产生了具有竞争力的文本到图像输出，而且大大降低了训练和推断成本。
关键思路

CogView3是第一个在文本到图像生成领域实现relay扩散的模型，具有优异的性能并大大降低了训练和推断成本。
其它亮点

CogView3在人类评估方面优于当前最先进的开源文本到图像扩散模型SDXL 77.0％，同时仅需要约1/2的推断时间。CogView3的蒸馏变体在仅利用SDXL推断时间的1/10的情况下实现了可比较的性能。
相关研究

最近的相关研究包括：SDXL、CLIP等。

CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

提问交流

提问交流