LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

2024年05月23日
  • 简介
    潜在扩散模型(LDMs)的进展已经彻底改变了高分辨率图像生成的方式,但是这些系统的核心自编码器的设计空间仍未得到充分探索。在本文中,我们介绍了LiteVAE,这是一种自编码器家族,用于LDMs,利用2D离散小波变换提高了可扩展性和计算效率,而不会牺牲输出质量。我们还研究了LiteVAE的训练方法和解码器架构,并提出了几种增强方法,以改善训练动态和重建质量。我们的基本LiteVAE模型与当前LDMs中已建立的VAEs相匹配,但编码器参数减少了6倍,导致训练速度更快,GPU内存要求更低,而我们的较大模型在所有评估指标(rFID、LPIPS、PSNR和SSIM)上都优于复杂度相当的VAEs。
  • 图表
  • 解决问题
    LiteVAE:为高分辨率图像生成提供可扩展和高效的自编码器
  • 关键思路
    LiteVAE是一种基于2D离散小波变换的自编码器,可在保持输出质量的前提下提高可扩展性和计算效率,比标准变分自编码器(VAEs)具有更少的编码器参数。
  • 其它亮点
    论文提出了LiteVAE,这是一种基于2D离散小波变换的自编码器,可在保持输出质量的前提下提高可扩展性和计算效率,比标准VAEs具有更少的编码器参数。LiteVAE还提出了几种增强型训练方法和解码器架构,以提高训练动力学和重构质量。实验结果表明,LiteVAE的基础模型与当前LDMs中的VAEs的质量相匹配,但编码器参数减少了六倍,从而实现了更快的训练和更低的GPU内存要求。与复杂度相当的VAEs相比,我们的大型模型在所有评估指标(rFID,LPIPS,PSNR和SSIM)上表现更好。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:1)StyleGAN2,2)BigGAN,3)DALL-E,4)CLIP。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论