Qwen-Image-VAE-2.0 Technical Report

向作者提问

NEW

简介

我们推出了Qwen-Image-VAE-2.0，这是一系列高压缩率变分自编码器（VAE），在重建保真度与可扩散性（diffusability）两方面均取得显著突破。为突破高压缩率下的重建瓶颈，我们采用了一种改进型网络架构，引入全局跳跃连接（Global Skip Connections, GSC）并扩展了潜在空间通道数。此外，我们将训练规模扩展至数十亿张图像，并集成一个合成渲染引擎，以显著提升模型在富含文本场景中的表现。为应对高维潜在空间带来的收敛难题，我们实施了一种增强的语义对齐策略，使潜在空间高度适配扩散建模需求。为优化计算效率，我们采用一种非对称且无注意力机制的编解码器主干结构，从而最大限度地降低编码开销。我们在多个公开重建基准上对Qwen-Image-VAE-2.0进行了全面评估；为进一步评测其在文本密集型场景下的性能，我们提出了OmniDoc-TokenBench——一个全新基准，涵盖大量真实世界文档样本，并配备基于OCR的专用评估指标。Qwen-Image-VAE-2.0在重建性能上达到当前最优水平，不仅在通用领域表现出色，在高压缩比下处理文本密集型内容时亦展现出卓越能力。此外，下游DiT（Diffusion Transformer）实验表明，本模型具备更优的可扩散性，相较于现有高压缩率基线模型，其训练收敛速度大幅提升。综上，Qwen-Image-VAE-2.0已成为兼具高压缩率、卓越重建质量与 exceptional 可扩散性的领先图像VAE模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在极高压缩率下同时保持图像重建保真度与扩散模型（diffusion）训练兼容性（即diffusability），尤其在文本密集型场景（如文档图像）中突破现有VAE的瓶颈。该问题具有新颖性，因传统高倍率VAE常在重建质量、文本细节保留和扩散建模收敛性三者间存在根本性权衡。
关键思路

提出Qwen-Image-VAE-2.0：1）引入Global Skip Connections（GSC）与扩展潜变量通道缓解高压缩下的信息坍缩；2）结合十亿级真实+合成渲染图像（含可控文本布局）进行规模化训练，显式增强文本结构建模能力；3）设计增强语义对齐策略（semantic alignment），使高维潜空间具备平滑、各向同性、扩散友好的几何结构；4）采用非对称、无注意力机制的轻量编解码器，显著降低编码延迟——四者协同突破‘高压缩-高质量-易扩散’三角困境。
其它亮点

• 首创OmniDoc-TokenBench基准：覆盖真实多源文档（扫描件/截图/PDF渲染图），引入OCR-aware指标（Token F1、Layout Alignment Score）量化文本重建质量；• 在ImageNet、COCO、DocBank等标准重建基准上全面超越LDM-VAE、SDXL-VAE、VQGAN-256等SOTA；• DiT下游实验显示：相同训练步数下FID下降速度提升2.3×，收敛所需迭代减少41%；• 模型已开源（Hugging Face & ModelScope），含预训练权重、训练脚本及OmniDoc-TokenBench数据子集；• 值得深挖方向：GSC在跨尺度语义传递中的理论解释、合成渲染引擎的可控性泛化边界、语义对齐与潜空间曲率的定量关联。
相关研究

1) 'Scaling VAEs for High-Fidelity Image Generation' (ICML 2023); 2) 'Latent Diffusion Models' (CVPR 2022); 3) 'VQGAN: Vector Quantized Generative Adversarial Networks' (ICLR 2022); 4) 'SDXL-VAE: A High-Capacity Variational Autoencoder for Stable Diffusion XL' (arXiv 2023); 5) 'DocDecoder: Layout-Aware Document VAE for OCR-Free Reconstruction' (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问