Diffusion Transformers with Representation Autoencoders

向作者提问

NEW

简介

潜在生成建模已成为扩散变换器（DiT）的标准策略，其中预训练的自编码器将像素映射到潜在空间以进行扩散过程；然而，自编码器组件的发展却十分有限。目前大多数DiT仍依赖原始的变分自编码器（VAE）编码器，这带来了若干局限性：过时的主干网络损害了架构的简洁性，低维潜在空间限制了信息容量，以及仅基于重建任务训练导致的弱表征能力，最终制约了生成质量。在本研究中，我们探索用预训练的表征编码器（例如DINO、SigLIP、MAE）替代VAE，并搭配专门训练的解码器，构成我们称之为“表征自编码器”（Representation Autoencoders, RAEs）的新型结构。这类模型不仅能实现高质量的图像重建，还能提供语义丰富的潜在空间，同时支持可扩展的基于Transformer的架构设计。由于这些潜在空间通常维度较高，一个关键挑战在于如何使扩散变换器在其中高效运行。我们分析了这一难题的成因，提出了具有理论依据的解决方案，并通过实验验证了其有效性。我们的方法无需借助额外的表征对齐损失即可实现更快的收敛速度。通过采用一种配备轻量级且宽幅DDT头部的DiT变体，我们在ImageNet数据集上取得了优异的图像生成效果：在256×256分辨率下无分类器引导时FID为1.51，使用分类器引导时在256×256和512×512分辨率下FID均达到1.13。RAE展现出显著优势，应成为扩散变换器训练的新默认选择。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的Diffusion Transformers（DiT）普遍依赖传统的VAE作为图像到潜在空间的编码器，但这些VAE存在架构陈旧、潜在空间维度低、语义表达能力弱等问题，限制了生成质量。论文试图验证：是否可以用更先进的预训练表示编码器替代传统VAE编码器，从而提升DiT的性能。这是一个重要且尚未被充分探索的问题，尽管潜在空间建模对生成模型至关重要，但自动编码器组件在DiT时代长期未得到更新。
关键思路

提出用预训练的语义丰富表示学习模型（如DINO、SigLIP、MAE）作为编码器，搭配专门训练的解码器，构建新型自动编码器——Representation Autoencoders（RAEs）。该方法利用高维、语义强的潜在空间进行扩散建模，并通过理论分析和结构设计（如轻量级宽DDT头）解决高维潜在空间带来的扩散训练困难问题，无需额外的对齐损失即可实现快速收敛。相比现有工作，RAE首次系统性地将现代自监督表示学习引入DiT的潜在空间建模，打破了对重建型VAE的依赖。
其它亮点

在ImageNet 256x256和512x512上实现了1.51（无引导）和1.13（有引导）的FID分数，达到当时领先水平；实验表明RAE能加速扩散模型收敛，且不需复杂的辅助损失；采用可扩展的Transformer架构设计，提升了整体系统一致性；研究深入分析了高维潜在空间中扩散训练的挑战来源并提出有效解决方案；虽然论文未明确提及开源代码，但其基于主流表示模型（如SigLIP、MAE）的设计为复现提供了良好基础；未来值得深入研究不同预训练目标对潜在空间适配性的影响，以及如何进一步压缩高维潜在表示而不损失语义信息。
相关研究

1. Emerging Properties in Self-Supervised Vision Transformers (DINO) 2. PaLM-E: An Embodied Multimodal Language Model (SigLIP) 3. Masked Autoencoders Are Scalable Vision Learners (MAE) 4. Scalable Diffusion Models with Transformers (DiT) 5. High-Resolution Image Synthesis with Latent Diffusion Models (LDM)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问