Boosting Generative Image Modeling via Joint Image-Feature Synthesis

2025年04月22日
  • 简介
    潜在扩散模型(LDMs)在高质量图像生成领域占据主导地位,但将表征学习与生成建模相结合仍然是一个挑战。我们提出了一种全新的生成图像建模框架,通过利用扩散模型同时对低级图像潜变量(来自变分自编码器)和高级语义特征(来自预训练的自监督编码器,例如 DINO)进行联合建模,从而无缝弥合这一差距。我们的潜变量-语义扩散方法能够从纯噪声中生成连贯的图像-特征对,显著提升了生成质量和训练效率,同时仅需对标准扩散变换器架构进行少量修改。通过消除复杂的知识蒸馏目标,我们统一的设计简化了训练过程,并解锁了一种强大的新推理策略:表征引导(Representation Guidance),该策略利用学习到的语义信息来指导和优化图像生成。在条件生成和无条件生成两种场景下评估时,我们的方法在图像质量和训练收敛速度方面均实现了显著提升,为具有表征感知能力的生成建模开辟了新的方向。
  • 图表
  • 解决问题
    论文试图解决将表示学习与生成建模无缝结合的问题,尤其是在高质图像生成领域中,如何通过低层级图像潜在变量和高层级语义特征的联合建模来提升生成质量和训练效率。这是一个重要但尚未完全解决的问题。
  • 关键思路
    论文提出了一种新的框架——隐语义扩散模型(Latent-Semantic Diffusion),它结合了变分自编码器提取的低层级图像潜在变量和预训练自监督模型(如DINO)提取的高层级语义特征。通过扩散模型从纯噪声中生成连贯的图像-特征对,这种方法不仅提升了生成质量,还简化了训练过程,避免了复杂的蒸馏目标,并引入了基于学习到的语义引导图像生成的新策略。
  • 其它亮点
    1. 提出了Representation Guidance技术,能够利用高层语义特征指导图像生成,增强了控制能力;2. 在条件和无条件生成任务中均展示了显著的性能提升,特别是在训练收敛速度和图像质量方面;3. 方法仅需对标准扩散Transformer架构进行少量修改即可实现,具有较强的普适性;4. 实验使用了多个公开数据集(如CIFAR-10、LSUN等),代码已开源以促进后续研究;5. 论文为表示感知生成建模提供了一个全新的方向,未来可探索更多类型的语义特征及其应用。
  • 相关研究
    相关研究包括:1. 使用扩散模型进行高质量图像生成的工作,如Stable Diffusion和DDPM;2. 结合VAE与扩散模型的研究,例如VQ-GAN+CLIP;3. 自监督学习在图像特征提取中的应用,如DINO和MAE;4. 表示学习与生成模型结合的尝试,例如Contrastive Learning for Generative Models (CVPR 2021) 和 Semantic Diffusion Models (ICLR 2022)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论