- 简介最近的研究表明,在(生成式)扩散模型中的降噪过程可以诱导模型内部产生有意义的(判别式)表示,尽管这些表示的质量仍然落后于最近的自监督学习方法学习到的表示。我们认为,训练大规模扩散模型进行生成的一个主要瓶颈在于有效地学习这些表示。此外,通过将高质量的外部视觉表示纳入其中,而不仅仅依赖于扩散模型独立地学习它们,可以使训练变得更容易。我们通过引入一种称为“表示对齐(REPresentation Alignment,REPA)”的简单正则化方法来研究这一点,该方法将降噪网络中的噪声输入隐藏状态的投影与从外部预训练的视觉编码器获得的清晰图像表示对齐。结果令人惊讶:我们的简单策略在应用于流行的扩散和基于流的变压器,如DiT和SiT时,在训练效率和生成质量方面都取得了显着的改进。例如,我们的方法可以将SiT的训练速度提高17.5倍以上,在不到400K步的情况下,匹配训练了7M步的SiT-XL模型(没有分类器自由引导)的性能。在最终的生成质量方面,我们的方法使用自由引导间隔,达到了FID=1.42的最先进结果。
- 图表
- 解决问题论文旨在解决大规模扩散模型训练中学习有意义表示的困难问题,提出一种简单的正则化方法REPresentation Alignment(REPA)来解决这一问题。
- 关键思路REPA方法通过将噪声输入隐藏状态的投影与从外部预训练的视觉编码器获得的干净图像表示对齐,从而提高扩散模型的训练效率和生成质量。
- 其它亮点实验结果表明,REPA方法可以显著提高扩散模型的训练效率和生成质量,如将SiT的训练速度提高了17.5倍,并在FID指标上达到了1.42的最优结果。论文使用了DiTs和SiTs等流行的扩散和流变换模型,并提供了开源代码。
- 与本文相关的研究包括:GAN、VAE、自监督学习等。
沙发等你来抢
去评论
评论
沙发等你来抢