DiP: Taming Diffusion Models in Pixel Space

2025年11月24日
  • 简介
    扩散模型在生成质量和计算效率之间面临着一个根本性的权衡。潜在扩散模型(LDMs)提供了一种高效的解决方案,但可能存在信息丢失且无法实现端到端训练。相比之下,现有的像素空间模型虽然绕开了变分自编码器(VAE),但在高分辨率图像生成任务中计算成本过高,难以实用。为解决这一困境,我们提出了DiP——一种高效的像素空间扩散框架。DiP将生成过程解耦为全局和局部两个阶段:其主干网络采用扩散Transformer(DiT),在大尺寸图像块上进行操作,以高效构建全局结构;同时,一个协同训练的轻量级“补丁细节增强头”(Patch Detailer Head)利用上下文特征恢复精细的局部细节。这种协同设计在不依赖VAE的情况下,实现了与LDM相当的计算效率。DiP的推理速度比先前方法最快可提升达10倍,总参数量仅增加0.3%,并在ImageNet 256×256数据集上取得了1.79的FID分数。
  • 作者讲解
  • 图表
  • 解决问题
    扩散模型在生成质量与计算效率之间存在根本性权衡。现有的潜在扩散模型(LDMs)虽然提升了效率,但依赖于VAE,导致信息损失且无法端到端训练;而直接在像素空间操作的模型虽避免了VAE,却因计算开销过大难以用于高分辨率图像生成。该问题尚未被充分解决,尤其在兼顾效率、质量与无VAE设计方面仍是一个具有挑战性的新问题。
  • 关键思路
    提出DiP——一种高效的像素空间扩散框架,通过将生成过程解耦为全局结构构建和局部细节恢复两个阶段:使用基于大块的Diffusion Transformer(DiT)主干高效生成全局结构,同时协同训练一个轻量级的Patch Detailer Head来恢复精细局部细节。这种无需VAE的设计在保持接近LDM的计算效率的同时实现了高质量生成,突破了传统方法在效率与保真度之间的权衡。
  • 其它亮点
    DiP在ImageNet 256×256上取得了1.79的FID分数,性能优越;推理速度比先前像素空间方法快达10倍,仅增加0.3%的参数量;整个框架无需VAE且可端到端训练。实验设计严谨,在标准基准上与多种先进模型进行了对比,验证了其效率与质量优势。论文未明确提及是否开源代码,但其架构设计清晰,具备良好的可复现性和进一步优化空间,例如扩展至视频生成或更高分辨率场景。
  • 相关研究
    1. High-Resolution Image Synthesis with Latent Diffusion Models 2. Diffusion Models Beat GANs on Image Synthesis 3. Scalable Diffusion Models with Transformers 4. Pixel Recursive Super Resolution 5. Variational Diffusion Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问