- 简介潜在扩散模型(LDMs)的进展已经彻底改变了高分辨率图像生成的方式,但是这些系统的核心自编码器的设计空间仍未得到充分探索。在本文中,我们介绍了LiteVAE,这是一种自编码器家族,用于LDMs,利用2D离散小波变换提高了可扩展性和计算效率,而不会牺牲输出质量。我们还研究了LiteVAE的训练方法和解码器架构,并提出了几种增强方法,以改善训练动态和重建质量。我们的基本LiteVAE模型与当前LDMs中已建立的VAEs相匹配,但编码器参数减少了6倍,导致训练速度更快,GPU内存要求更低,而我们的较大模型在所有评估指标(rFID、LPIPS、PSNR和SSIM)上都优于复杂度相当的VAEs。
- 图表
- 解决问题LiteVAE:为高分辨率图像生成提供可扩展和高效的自编码器
- 关键思路LiteVAE是一种基于2D离散小波变换的自编码器,可在保持输出质量的前提下提高可扩展性和计算效率,比标准变分自编码器(VAEs)具有更少的编码器参数。
- 其它亮点论文提出了LiteVAE,这是一种基于2D离散小波变换的自编码器,可在保持输出质量的前提下提高可扩展性和计算效率,比标准VAEs具有更少的编码器参数。LiteVAE还提出了几种增强型训练方法和解码器架构,以提高训练动力学和重构质量。实验结果表明,LiteVAE的基础模型与当前LDMs中的VAEs的质量相匹配,但编码器参数减少了六倍,从而实现了更快的训练和更低的GPU内存要求。与复杂度相当的VAEs相比,我们的大型模型在所有评估指标(rFID,LPIPS,PSNR和SSIM)上表现更好。
- 最近在这个领域中,还有一些相关的研究,例如:1)StyleGAN2,2)BigGAN,3)DALL-E,4)CLIP。
沙发等你来抢
去评论
评论
沙发等你来抢