Improving the Diffusability of Autoencoders

2025年02月20日
  • 简介
    潜在扩散模型已成为生成高质量图像和视频的主要方法,通过使用压缩的潜在表示来减少扩散过程的计算负担。尽管最近的研究主要集中在扩展扩散主干网络和提高自动编码器重建质量上,但这些组件之间的相互作用却未得到足够的关注。在这项工作中,我们对现代自动编码器进行了频谱分析,并在其潜在空间中发现了异常高的高频成分,尤其是在具有较大瓶颈通道尺寸的自动编码器中尤为明显。我们假设这种高频成分干扰了扩散合成过程的粗到精特性,从而影响生成质量。为了解决这个问题,我们提出了尺度等变性:一种简单的正则化策略,通过在解码器中强制实现尺度等变性,使潜在空间和RGB空间在不同频率上保持一致。该方法只需要少量代码修改和最多20,000步的自动编码器微调,但却显著提高了生成质量,在ImageNet-1K 256x256图像生成上FID降低了19%,在Kinetics-700 17x256x256视频生成上FVD至少降低了44%。
  • 图表
  • 解决问题
    该论文试图解决在生成高质图像和视频的潜扩散模型中,自动编码器的潜在空间中存在的异常高频成分问题。这些高频成分可能干扰了扩散合成过程中的粗略到精细特性,从而影响生成质量。这是一个相对较新的问题,特别是在大规模瓶颈通道尺寸的自动编码器中尤为明显。
  • 关键思路
    论文提出的关键思路是引入尺度等变性(scale equivariance),一种通过在解码器中强制执行尺度等变性来对齐潜在空间和RGB空间的频率的正则化策略。相比现有研究,此方法不仅简单且只需少量代码修改及有限的微调步骤,却能显著提升生成质量。
  • 其它亮点
    论文的主要亮点包括:1) 通过光谱分析识别出自动编码器潜在空间中的高频成分;2) 提出了一个新颖且简单的尺度等变性正则化策略;3) 实验设计严谨,使用了ImageNet-1K和Kinetics-700数据集进行验证,并报告了FID和FVD指标上的显著改进;4) 研究表明,仅需最多20K步的自动编码器微调即可获得明显效果。此外,该工作值得进一步探索,例如在不同类型的生成任务中的应用以及与其他正则化技术的结合。
  • 相关研究
    最近的相关研究还包括《Improved Techniques for Training Score-based Generative Models》、《Denoising Diffusion Probabilistic Models》以及《Generative Modeling by Estimating Gradients of the Data Distribution》。这些研究都致力于提高生成模型的质量和效率,但本论文的独特之处在于它专注于自动编码器与扩散模型之间的交互优化。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论