LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

向作者提问

NEW

简介

潜在扩散模型（LDMs）的进展已经彻底改变了高分辨率图像生成的方式，但是这些系统的核心自编码器的设计空间仍未得到充分探索。在本文中，我们介绍了LiteVAE，这是一种自编码器家族，用于LDMs，利用2D离散小波变换提高了可扩展性和计算效率，而不会牺牲输出质量。我们还研究了LiteVAE的训练方法和解码器架构，并提出了几种增强方法，以改善训练动态和重建质量。我们的基本LiteVAE模型与当前LDMs中已建立的VAEs相匹配，但编码器参数减少了6倍，导致训练速度更快，GPU内存要求更低，而我们的较大模型在所有评估指标（rFID、LPIPS、PSNR和SSIM）上都优于复杂度相当的VAEs。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

LiteVAE：为高分辨率图像生成提供可扩展和高效的自编码器
关键思路

LiteVAE是一种基于2D离散小波变换的自编码器，可在保持输出质量的前提下提高可扩展性和计算效率，比标准变分自编码器（VAEs）具有更少的编码器参数。
其它亮点

论文提出了LiteVAE，这是一种基于2D离散小波变换的自编码器，可在保持输出质量的前提下提高可扩展性和计算效率，比标准VAEs具有更少的编码器参数。LiteVAE还提出了几种增强型训练方法和解码器架构，以提高训练动力学和重构质量。实验结果表明，LiteVAE的基础模型与当前LDMs中的VAEs的质量相匹配，但编码器参数减少了六倍，从而实现了更快的训练和更低的GPU内存要求。与复杂度相当的VAEs相比，我们的大型模型在所有评估指标（rFID，LPIPS，PSNR和SSIM）上表现更好。
相关研究

最近在这个领域中，还有一些相关的研究，例如：1）StyleGAN2，2）BigGAN，3）DALL-E，4）CLIP。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问