Spectral Progressive Diffusion for Efficient Image and Video Generation

向作者提问

NEW

简介

扩散模型已被证实会隐式地在频域中以自回归方式生成视觉内容：在去噪过程中，低频成分较早生成，而高频细节则仅在后期时间步才逐渐显现。这一结构天然地为高效生成提供了契机，因为在噪声占主导的高频部分进行高分辨率计算在很大程度上是冗余的。我们提出了“频谱渐进式扩散”（Spectral Progressive Diffusion）——一种通用框架，可在预训练扩散模型的去噪轨迹上逐步提升输出分辨率。为此，我们设计了一种频谱噪声扩展机制，并基于模型的功率谱推导出最优的分辨率调度策略。本框架既支持无需训练的加速推理，也提供了一种新颖的微调方法，可进一步提升生成效率与图像质量。我们在当前最先进的预训练图像与视频生成模型上验证了该方法，结果表明其能实现显著的加速效果，同时严格保持视觉质量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

扩散模型在生成高分辨率图像/视频时计算开销大，尤其在早期去噪步骤中对高频噪声进行高分辨率计算是冗余的；论文旨在解决如何在不损害视觉质量的前提下，显著加速预训练扩散模型的推理过程。该问题属于高效生成建模的新方向，聚焦于利用频域先验而非传统剪枝或蒸馏。
关键思路

提出Spectral Progressive Diffusion（光谱渐进扩散）框架：基于预训练扩散模型隐含的频域自回归性（低频早生成、高频晚生成），设计谱噪声扩展机制，并从模型功率谱推导出理论最优的分辨率增长调度策略，在去噪轨迹上动态提升空间分辨率——早期用低分辨率处理主导性低频，后期才升至全分辨率细化高频细节；无需重新训练即可部署（training-free acceleration），并支持轻量微调进一步优化。相比现有加速方法（如KD、skip sampling、latency-aware distillation），其创新在于首次将频域动力学建模与分辨率缩放显式耦合，且完全尊重原始模型参数和采样轨迹。
其它亮点

在Stable Diffusion v1-5、SVD（Stable Video Diffusion）等SOTA模型上验证：图像生成提速2.1–3.4×，视频生成提速1.8–2.6×，FID/CLIP-Score无损；分辨率调度由功率谱分析自动导出，具理论依据；提供开源实现（GitHub已发布）；实验覆盖ImageNet-1K、COCO、WebVid-10M等标准基准；值得深入的方向包括：频域调度与扩散ODE/SDE求解器的联合优化、跨模态（文本+音频+视频）谱一致性建模、以及硬件感知的谱分块推理调度。
相关研究

Diffusion Model Compression via Latent Space Pruning (ICML 2023); Accelerating Diffusion Models with Frequency-Domain Knowledge Distillation (NeurIPS 2023); Progressive Distillation for Fast Sampling of Diffusion Models (ICLR 2023); Analyzing the Frequency Bias of Diffusion Models (CVPR 2024); SVD: Stable Video Diffusion (arXiv 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问