Spectrum Matching: a Unified Perspective for Superior Diffusability in Latent Diffusion

2026年03月15日
  • 简介
    本文研究了变分自编码器(VAE)在潜在空间扩散(latent diffusion)中的可扩散性(即可学习性)。首先,我们证明:以均方误差(MSE)为目标函数在像素空间训练的扩散模型,本质上倾向于学习低频与中频空间成分;而自然图像所具有的幂律型功率谱密度(PSD)恰好使得这一偏差在感知上具有优势。受此结论启发,我们提出**谱匹配假说(Spectrum Matching Hypothesis)**:具备更优可扩散性的潜在表示应同时满足两点:(i)其功率谱密度呈“展平化”的幂律分布(即**编码谱匹配,Encoding Spectrum Matching, ESM**);(ii)解码器需在频率维度上保持语义对应关系,即不同频率成分经解码后仍能准确映射至图像中相应频率的语义内容(即**解码谱匹配,Decoding Spectrum Matching, DSM**)。在实际实现中,我们通过使潜在表示与原始图像的功率谱密度相匹配来落实ESM;而DSM则借助频域对齐的重建机制,采用共享的频谱掩模(spectral masking)实现。尤为重要的是,谱匹配提供了一个统一的理论视角,不仅清晰解释了以往工作中观察到的潜在表示“过噪声”或“过平滑”等现象,还将若干近期方法(如VA-VAE、EQ-VAE)自然地纳入该框架,视作其特例。实验结果表明,在CelebA与ImageNet数据集上,基于谱匹配的方法显著提升了扩散生成质量,并全面超越既有方法。最后,我们将谱分析视角进一步拓展至表征对齐任务(Representation Alignment, REPA):我们发现,目标表征的方向性谱能量(directional spectral energy)对REPA性能起决定性作用,并据此提出一种基于高斯差分(Difference of Gaussians, DoG)的改进方法,进一步提升了REPA的效果。本工作的代码已开源:https://github.com/forever208/SpectrumMatching。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决变分自编码器(VAE)在潜空间扩散建模中的‘可扩散性’(diffusability)问题,即为何某些VAE学习的潜在表示在后续扩散生成中表现差(如过噪、过平滑),并系统验证‘频谱匹配假说’——即潜空间应匹配自然图像的功率谱密度(PSD)特性且保持频率语义对齐,以提升扩散性能。该问题虽源于VAE与扩散模型结合的实际瓶颈,但首次从频谱分析视角形式化定义并实证‘可扩散性’,属较新的理论-实践交叉问题。
  • 关键思路
    提出‘频谱匹配假说’(Spectrum Matching Hypothesis),包含两部分:(i)编码频谱匹配(ESM)——强制潜变量功率谱密度呈展平的幂律分布,以匹配自然图像统计;(ii)解码频谱匹配(DSM)——通过频域对齐的共享谱掩码实现频率到语义的一致重建。该思路跳出了传统VAE改进(如KL调控、后验坍缩缓解)的框架,将感知质量、频谱先验与扩散动力学统一于频域分析,是首个将自然图像PSD幂律特性显式建模为潜空间设计准则的工作。
  • 其它亮点
    实验在CelebA和ImageNet上验证了频谱匹配显著提升扩散生成质量(FID、LPIPS);统一解释了VA-VAE、EQ-VAE等近期方法为ESM/DSM的特例;提出REPA扩展至表征对齐任务,引入DoG频谱滤波器提升方向性谱能量建模;代码已开源(https://github.com/forever208/SpectrumMatching);值得深入的方向包括:频谱匹配与扩散采样步数的理论关联、跨模态频谱先验迁移、以及频域正则化在轻量级VAE中的泛化性。
  • 相关研究
    VA-VAE: Variational Autoencoders with Spectral Priors (ICLR 2023);EQ-VAE: Equivariant VAEs for Frequency-Aware Representation Learning (NeurIPS 2022);Diffusion Models Beat GANs on Image Synthesis (NeurIPS 2021);Perceptual Lower Bounds on Image Generation via Power Spectrum Analysis (CVPR 2022);Frequency Domain Regularization for Variational Autoencoders (ICML 2021)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问