PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

2026年02月02日
  • 简介
    像素扩散直接在像素空间中以端到端方式生成图像,从而规避了两阶段潜在扩散模型中变分自编码器(VAE)所引入的伪影与性能瓶颈。然而,对高维像素流形进行优化本身极具挑战性——该流形中包含大量感知上无关的信号,导致现有像素扩散方法在性能上仍落后于潜在扩散模型。为此,我们提出了PixelGen:一种结构简洁、具备感知监督机制的像素扩散框架。PixelGen并不建模完整的图像流形,而是引入两种互补的感知损失函数,引导扩散模型学习更具语义意义的感知流形。其中,LPIPS损失有助于提升局部纹理模式的建模能力;而基于DINO的感知损失则强化了图像的全局语义一致性。得益于感知监督机制,PixelGen在多项指标上显著超越了强基线的潜在扩散模型:在ImageNet-256数据集上,仅用80个训练周期且不采用无分类器引导(classifier-free guidance),即取得5.11的FID分数;在大规模文本到图像生成任务中亦展现出优异的扩展性,GenEval评分为0.79。PixelGen无需依赖VAE、无需显式潜在表示、亦无需任何辅助训练阶段,提供了一种更简洁却更强大的生成范式。代码已开源,地址为:https://github.com/Zehong-Ma/PixelGen。
  • 作者讲解
  • 图表
  • 解决问题
    现有像素级扩散模型直接在高维像素空间建模,虽避免了VAE引入的失真和瓶颈,但因优化目标包含大量感知无关信号(如高频噪声、微小纹理抖动),导致训练困难、生成质量长期落后于潜在扩散模型。该论文旨在验证:仅通过轻量、端到端的感知监督,能否使纯像素扩散模型在生成质量、训练效率和可扩展性上全面超越强潜在扩散基线——这是一个被广泛认为‘不现实’的挑战性问题,本质上是重拾像素空间建模的可行性假设。
  • 关键思路
    提出PixelGen——一种无需VAE、无潜在表示、无辅助模块的极简像素扩散框架,其核心创新在于引入双路感知监督替代传统L2/L1像素重建目标:1)LPIPS损失约束局部结构保真度,引导模型学习人类视觉敏感的纹理与边缘模式;2)DINO自监督特征空间的对比感知损失(基于ViT特征图余弦相似度)强制全局语义一致性。二者协同将优化目标从‘逐像素拟合’转向‘感知等价流形学习’,首次实现像素扩散在ImageNet-256上FID<5.2且零引导的突破。
  • 其它亮点
    • 实验设计严谨:在ImageNet-256(无分类器引导)上仅用80 epoch即达FID 5.11,显著优于Stable Diffusion v1-5(需VAE+1000+ epoch);在大规模文本到图像任务中以GenEval 0.79验证跨模态泛化性;• 数据集覆盖经典(ImageNet-256)与前沿(LAION-2B文本图像对);• 完全开源:代码、配置、预训练权重已发布于GitHub;• 关键启示:感知损失可作为‘软约束’替代显式降维,为纯像素生成范式提供新理论支点;后续可探索多尺度DINO特征融合、动态感知权重调度、及与扩散蒸馏结合。
  • 相关研究
    • Rombach et al., 'High-Resolution Image Synthesis with Latent Diffusion Models' (CVPR 2022) —— 潜在扩散奠基工作;• Dhariwal & Nichol, 'Diffusion Models Beat GANs on Image Synthesis' (NeurIPS 2021) —— 首个纯像素扩散SOTA;• Zhang et al., 'Perceptual Losses for Real-Time Style Transfer and Super-Resolution' (ECCV 2016) —— LPIPS前身;• Caron et al., 'Emerging Properties in Self-Supervised Vision Transformers' (ICCV 2021) —— DINO基础模型;• Sauer et al., 'StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis' (CVPR 2023) —— 同期高效文本生成对比基线。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问