What matters for Representation Alignment: Global Information or Spatial Structure?

向作者提问

NEW

简介

表示对齐（REPA）通过将一个强大的预训练视觉编码器的表示“蒸馏”到扩散模型的中间特征中，来引导生成模型的训练。我们探讨了一个根本性问题：在目标表示中，究竟是什么因素影响了生成效果？是其\textit{全局}语义信息（例如，以ImageNet-1K准确率衡量）还是其空间结构（即图像块标记之间的成对余弦相似性）？通常认为，目标表示的全局语义性能越强，生成效果就越好。为研究这一观点，我们首先在27种不同的视觉编码器以及多种模型规模上进行了大规模实证分析。结果令人意外：驱动生成性能的关键因素是空间结构，而非全局语义性能。为进一步探索这一点，我们提出了两项简单直接的改进，专门强化了\emph{空间}信息的迁移：我们将REPA中原有的标准MLP投影层替换为一个简单的卷积层，并为外部表示引入了一个空间归一化层。令人惊讶的是，我们这个极为简洁的方法（实现代码不足4行），称为iREPA，在多种视觉编码器、模型尺寸和训练变体（如REPA、REPA-E、Meanflow、JiT等）下，均持续提升了REPA的收敛速度。本研究促使我们重新审视表示对齐的基本工作机制，以及如何利用该机制进一步优化生成模型的训练。代码与项目页面详见 https://end2end-diffusion.github.io/irepa
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文试图解决生成模型中表示对齐（REPA）过程中，应该优先迁移预训练视觉编码器的全局语义信息还是空间结构信息这一根本问题。传统观点认为更强的全局语义性能（如ImageNet-1K准确率）会带来更好的生成效果，但该假设尚未被系统验证——这正是本研究要检验的核心假设。
关键思路

通过大规模实证分析发现，决定生成性能的关键因素是目标表示的空间结构（即patch token间的成对余弦相似性），而非其全局语义性能。基于此洞察，作者提出iREPA：用卷积层替代MLP投影层，并引入空间归一化层，专门增强空间信息的迁移。这种方法仅需不到4行代码修改，却显著提升收敛速度和稳定性。
其它亮点

研究在27个不同架构和尺度的视觉编码器上进行了大规模实验，结果一致表明空间结构与生成性能高度相关，而ImageNet准确率相关性弱。实验覆盖多种训练变体（如REPA、REPA-E、Meanflow、JiT等）。方法简单高效，已开源代码和项目页面（https://end2end-diffusion.github.io/irepa），极具可复现性和实用价值。未来可探索如何更精细建模空间先验，或将其扩展到视频、多模态生成任务。
相关研究

1. Representation Alignment for Generative Modeling (REPA) 2. REPA-E: Efficient Representation Distillation for Diffusion Models 3. Meanflow: Rethinking Feature Matching in Diffusion Models 4. JiT: Joint-in-Time Training with Frozen Encoders 5. Diffusion with Instance-wise Knowledge Transfer (DIKT)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问