PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

向作者提问

NEW

简介

像素扩散直接在像素空间中以端到端方式生成图像，从而规避了两阶段潜在扩散模型中变分自编码器（VAE）所引入的伪影与性能瓶颈。然而，对高维像素流形进行优化本身极具挑战性——该流形中包含大量感知上无关的信号，导致现有像素扩散方法在性能上仍落后于潜在扩散模型。为此，我们提出了PixelGen：一种结构简洁、具备感知监督机制的像素扩散框架。PixelGen并不建模完整的图像流形，而是引入两种互补的感知损失函数，引导扩散模型学习更具语义意义的感知流形。其中，LPIPS损失有助于提升局部纹理模式的建模能力；而基于DINO的感知损失则强化了图像的全局语义一致性。得益于感知监督机制，PixelGen在多项指标上显著超越了强基线的潜在扩散模型：在ImageNet-256数据集上，仅用80个训练周期且不采用无分类器引导（classifier-free guidance），即取得5.11的FID分数；在大规模文本到图像生成任务中亦展现出优异的扩展性，GenEval评分为0.79。PixelGen无需依赖VAE、无需显式潜在表示、亦无需任何辅助训练阶段，提供了一种更简洁却更强大的生成范式。代码已开源，地址为：https://github.com/Zehong-Ma/PixelGen。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有像素级扩散模型直接在高维像素空间建模，虽避免了VAE引入的失真和瓶颈，但因优化目标包含大量感知无关信号（如高频噪声、微小纹理抖动），导致训练困难、生成质量长期落后于潜在扩散模型。该论文旨在验证：仅通过轻量、端到端的感知监督，能否使纯像素扩散模型在生成质量、训练效率和可扩展性上全面超越强潜在扩散基线——这是一个被广泛认为‘不现实’的挑战性问题，本质上是重拾像素空间建模的可行性假设。
关键思路

提出PixelGen——一种无需VAE、无潜在表示、无辅助模块的极简像素扩散框架，其核心创新在于引入双路感知监督替代传统L2/L1像素重建目标：1）LPIPS损失约束局部结构保真度，引导模型学习人类视觉敏感的纹理与边缘模式；2）DINO自监督特征空间的对比感知损失（基于ViT特征图余弦相似度）强制全局语义一致性。二者协同将优化目标从‘逐像素拟合’转向‘感知等价流形学习’，首次实现像素扩散在ImageNet-256上FID<5.2且零引导的突破。
其它亮点

• 实验设计严谨：在ImageNet-256（无分类器引导）上仅用80 epoch即达FID 5.11，显著优于Stable Diffusion v1-5（需VAE+1000+ epoch）；在大规模文本到图像任务中以GenEval 0.79验证跨模态泛化性；• 数据集覆盖经典（ImageNet-256）与前沿（LAION-2B文本图像对）；• 完全开源：代码、配置、预训练权重已发布于GitHub；• 关键启示：感知损失可作为‘软约束’替代显式降维，为纯像素生成范式提供新理论支点；后续可探索多尺度DINO特征融合、动态感知权重调度、及与扩散蒸馏结合。
相关研究

• Rombach et al., 'High-Resolution Image Synthesis with Latent Diffusion Models' (CVPR 2022) —— 潜在扩散奠基工作；• Dhariwal & Nichol, 'Diffusion Models Beat GANs on Image Synthesis' (NeurIPS 2021) —— 首个纯像素扩散SOTA；• Zhang et al., 'Perceptual Losses for Real-Time Style Transfer and Super-Resolution' (ECCV 2016) —— LPIPS前身；• Caron et al., 'Emerging Properties in Self-Supervised Vision Transformers' (ICCV 2021) —— DINO基础模型；• Sauer et al., 'StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis' (CVPR 2023) —— 同期高效文本生成对比基线。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问