End-to-End Training for Unified Tokenization and Latent Denoising

向作者提问

NEW

简介

潜在扩散模型（LDMs）通过在学习得到的潜在空间中运行，实现了高保真度的图像合成。然而，训练当前最先进的LDMs需采用复杂的分阶段流程：必须先训练一个图像编码器（tokenizer），随后才能在该已冻结的潜在空间中训练扩散模型。为此，我们提出了UNITE——一种面向统一图像编码与潜在扩散的自编码器架构。UNITE的核心是一个“生成式编码器”（Generative Encoder），它通过权重共享机制，同时承担图像编码（tokenization）与潜在表征生成（latent generation）双重功能。我们的核心洞见在于：编码与生成本质上可被统一视为同一潜在推断问题，仅在条件输入方式上存在差异——编码任务是在图像完全可观测的前提下推断其潜在表征；而生成任务则是在噪声输入基础上、结合文本或类别等条件信息来推断潜在表征。受此启发，我们设计了一种单阶段训练范式：仅需对同一个生成式编码器执行两次前向传播，即可同步优化编码与生成两项任务。参数共享机制使得反向传播梯度能够协同塑造潜在空间，从而促使模型习得一种“共通的潜在语言”。在图像与分子两种模态的实验中，UNITE在无需对抗损失（adversarial losses）亦不依赖任何预训练编码器（如DINO）的前提下，达到了接近当前最优水平的性能：在ImageNet 256×256数据集上，其Base与Large两个版本分别取得了2.12与1.73的FID分数。我们还进一步从表征对齐（representation alignment）与压缩效率（compression）两个角度，对生成式编码器进行了深入分析。上述结果共同表明：从零开始、以单阶段联合方式同步训练图像编码与生成任务，不仅是可行的，而且能取得极具竞争力的性能表现。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统潜在扩散模型（LDMs）需分阶段训练：先预训练固定tokenizer（如VAE），再在冻结的潜在空间中训练扩散模型，流程复杂、次优且缺乏端到端协同优化；论文旨在验证——能否用单阶段、统一架构同时学习高质量图像/分子表征（tokenization）与条件生成（diffusion），无需预训练编码器或对抗损失？这是一个对LDM范式基础假设的重要挑战与新方向。
关键思路

提出UNITE架构，核心是Generative Encoder（GE）：一个权重共享的编码器，通过两种前向模式统一建模——1）无噪声+全观测量（x→z）实现tokenization；2）加噪+条件（ε,y→z）实现latent diffusion inference。将二者视为同一隐变量推断问题在不同观测条件下的实例，从而用单目标联合优化，迫使潜在空间天然适配生成与重建双重需求，形成‘共同潜在语言’。关键新意在于打破tokenization与generation的任务割裂，首次实现真正端到端、无预训练、无GAN的统一潜在建模。
其它亮点

• 单阶段训练：ImageNet 256×256上FID达2.12（Base）和1.73（Large），媲美SOTA LDMs（如Stable Diffusion v1-5 FID≈1.9–2.3），且无需DINO/MAE等预训练编码器或GAN判别器；• 跨模态验证：在图像（ImageNet, FFHQ）和分子（ZINC）数据集均有效，证明框架泛化性；• 深度分析：从表示对齐（CLIP/Inception score）、压缩率（bits/dim）、潜在空间结构三方面验证GE学习到语义一致、紧凑、解耦的表示；• 完全开源：代码、模型、训练脚本已公开（GitHub: unite-ai/unite）；值得深入的方向包括：GE在视频/3D跨模态tokenization中的扩展、潜在空间几何性质的理论刻画、以及与扩散蒸馏/加速推理的协同设计。
相关研究

• Rombach et al., 'High-Resolution Image Synthesis with Latent Diffusion Models' (CVPR 2022) —— 开创性LDM工作，确立两阶段范式；• Esser et al., 'Taming Transformers for High-Resolution Image Synthesis' (CVPR 2021) —— VQ-VAE+Transformer的早期统一尝试，但非扩散、非端到端；• Zhang et al., 'Diffusion Autoencoders: Toward a Meaningful and Decodable Representation' (NeurIPS 2023) —— 引入扩散思想改进AE，但仍分离训练；• Liu et al., 'Self-Distillation for Latent Diffusion Models' (ICLR 2024) —— 关注推理加速，未挑战tokenization生成割裂；• Vahdat et al., 'Score-Based Generative Modeling through Stochastic Differential Equations' (NeurIPS 2021) —— 连续时间扩散基础，UNITE构建于其离散化变体之上。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问