- 简介本文介绍了一种称为$\textbf{R}$epresentation-$\textbf{C}$onditioned image $\textbf{G}$eneration (RCG)的简单而有效的图像生成框架,它在无条件类别图像生成方面创造了新的基准。RCG不依赖于任何人工注释,而是以自监督表示分布为条件,该分布是使用预训练的编码器从图像分布映射而来的。在生成过程中,RCG使用表示扩散模型 (RDM) 从这种表示分布中进行采样,并使用像素生成器根据采样的表示条件生成图像像素。这种设计在生成过程中提供了实质性的指导,从而产生高质量的图像生成结果。在ImageNet 256$\times$256上的测试中,RCG实现了Frechet Inception Distance (FID) 3.31和Inception Score (IS) 253.4。这些结果不仅显著提高了无条件类别图像生成的最新水平,而且与当前领先的有条件类别图像生成方法相媲美,弥合了这两个任务之间长期存在的性能差距。代码可在https://github.com/LTH14/rcg上找到。
- 图表
- 解决问题本文旨在提出一种新的图像生成框架,解决类非条件图像生成的问题。该框架不需要人类注释,而是基于自监督表示分布进行条件生成。
- 关键思路本文的关键思路是使用预训练的编码器将图像分布映射到自监督表示分布,并使用表示扩散模型从表示分布中采样,然后使用像素生成器生成图像像素。
- 其它亮点本文的亮点包括:使用自监督表示分布进行条件生成,不需要人类注释;在ImageNet 256x256数据集上实现了FID为3.31和IS为253.4的优异性能;提供了开源代码。
- 在最近的相关研究中,还有一些类似的工作,如BigGAN、StyleGAN和PGGAN。
沙发等你来抢
去评论
评论
沙发等你来抢