- 简介扩散模型可以通过额外的引导来改进其对输入的有效表征。事实上,之前的经验研究已经表明,将扩散模型的内部表征与预训练模型的表征进行对齐可以提升生成质量。本文中,我们提出了一个系统性的框架,用于将表征引导融入扩散模型。我们给出了去噪模型的不同分解方式及其相应的训练准则,这些分解方式决定了何时以及如何引入辅助表征。基于我们的理论洞察,我们提出了两种新的策略来增强扩散模型中的表征对齐。第一种方法是将样本与其自身导出的目标表征或来自不同合成模态的表征配对,并在这些多模态配对数据上学习一个联合模型。第二种方法是我们设计了一个最优的训练课程,以平衡表征学习与数据生成之间的关系。我们在图像生成、蛋白质序列生成和分子生成任务上的实验表明,我们的方法不仅性能优越,而且训练速度更快。特别是在类条件ImageNet $256\times 256$基准测试中,我们的方法相比原始SiT-XL实现了23.3倍的训练加速,并比当前最先进的REPA方法快了四倍。代码可在https://github.com/ChenyuWang-Monica/REED 获取。
- 图表
- 解决问题论文旨在解决扩散模型(diffusion models)在生成质量与训练效率方面的局限性,通过引入表示引导(representation guidance)来提升其性能。具体目标是验证将扩散模型的内部表示与预训练模型对齐是否能够有效提升生成效果,并探索如何系统地整合这种引导机制。
- 关键思路论文提出了一种系统框架,用于在扩散模型中引入表示引导。关键思路包括两个方面:一是通过多模态配对学习(multimodal pair learning),将输入样本与其自身或其他合成模态的目标表示结合;二是设计一种最优训练课程(training curriculum),平衡表示学习和数据生成过程。这一方法相较于现有工作更系统化且具有更强的理论支撑。
- 其它亮点1. 提出了两种新的增强扩散模型的方法:多模态联合建模与动态训练课程优化 2. 实验涵盖图像、蛋白质序列和分子生成任务,展示了广泛适用性和优越性能 3. 在ImageNet 256x256类条件生成任务上,训练速度分别比SiT-XL快23.3倍,比REPA快4倍 4. 代码已开源(https://github.com/ChenyuWang-Monica/REED),增强了可复现性
- 1. REPA: Representation-Enhanced Prompt Alignment for Text-to-Image Generation 2. Score-Based Generative Modeling through Stochastic Differential Equations 3. Denoising Diffusion Probabilistic Models 4. Diffusion Models Beat GANs on Image Synthesis 5. Aligning Diffusion Models with Pretrained Feature Extractors via Contrastive Objectives
沙发等你来抢
去评论
评论
沙发等你来抢